Apple lance huit petits modèles de langue IA destinés à une utilisation sur l’appareil.

Dans le monde de l’IA, ce qu’on pourrait appeler des « petits modèles linguistiques » ont récemment gagné en popularité car ils peuvent s’exécuter sur un appareil local au lieu de nécessiter des ordinateurs de qualité centre de données dans le cloud. Mercredi, Apple a introduit un ensemble de petits modèles linguistiques en source ouverte appelés OpenELM qui sont suffisamment petits pour s’exécuter directement sur un smartphone. Ce sont principalement des modèles de recherche de preuve de concept pour le moment, mais ils pourraient constituer la base des futures offres d’IA sur appareil d’Apple. Les nouveaux modèles d’IA d’Apple, collectivement nommés OpenELM pour « Open-source Efficient Language Models », sont actuellement disponibles sur Hugging Face sous une licence Apple Sample Code. Comme il y a certaines restrictions dans la licence, cela pourrait ne pas correspondre à la définition communément acceptée de « open source », mais le code source d’OpenELM est disponible. Mardi, nous avons couvert les modèles Phi-3 de Microsoft, qui visent à atteindre quelque chose de similaire : un niveau utile de compréhension linguistique et de performances de traitement dans de petits modèles d’IA pouvant s’exécuter localement. Phi-3-mini possède 3,8 milliards de paramètres, mais certains des modèles OpenELM d’Apple sont beaucoup plus petits, allant de 270 millions à 3 milliards de paramètres dans huit modèles distincts. En comparaison, le plus grand modèle jusqu’à présent sorti de la famille Llama 3 de Meta comprend 70 milliards de paramètres (avec une version de 400 milliards en préparation), et le GPT-3 d’OpenAI de 2020 est sorti avec 175 milliards de paramètres. Le nombre de paramètres sert de mesure approximative de la capacité et de la complexité des modèles d’IA, mais les recherches récentes se sont concentrées sur la création de modèles linguistiques d’IA plus petits aussi performants que les plus grands il y a quelques années. Les huit modèles OpenELM se déclinent en deux versions : quatre « pré-entraînés » (essentiellement une version brute prochaine de token du modèle) et quatre « afinés pour l’instruction » (optimisés pour la suivie des instructions, ce qui est plus idéal pour le développement d’assistants d’IA et de chatbots).

Share the Post: