Apple a publié un article intitulé « LLM en un éclair : inférence efficace de modèles linguistiques volumineux avec mémoire limitée », décrivant une méthode pour exécuter des LLM sur des appareils dépassant la capacité de DRAM disponible. Cela implique de stocker les paramètres du modèle dans la mémoire flash et de les transférer à la DRAM selon les besoins. Leur méthode consiste à construire un modèle de coût d’inférence qui correspond au comportement de la mémoire flash, guidant les efforts d’optimisation dans deux domaines cruciaux : réduire le volume de données transférées depuis la flash et lire les données par blocs plus importants et plus contigus. Dans ce cadre informé par la mémoire flash, Apple utilise deux techniques principales. Premièrement, la « fenêtrage » réduit stratégiquement le transfert de données en réutilisant les neurones précédemment activés, et deuxièmement, le « regroupement ligne-colonne », adapté aux avantages d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus depuis la mémoire flash. Ces méthodes permettent collectivement d’exécuter des modèles jusqu’à deux fois la taille de la DRAM disponible, avec une augmentation de 4-5x et 20-25x de la vitesse d’inférence par rapport aux approches de chargement naïves en CPU et GPU, respectivement. Cette recherche est importante car Apple prévoit d’intégrer des capacités d’IA générative dans iOS 18. Le nouveau système d’exploitation exploitera la technologie d’IA générative pour améliorer Siri et l’application Messages, leur permettant de répondre aux questions et de compléter automatiquement les phrases de manière plus efficace. Apple explore également l’utilisation potentielle de l’IA générative dans des applications telles qu’Apple Music, Pages, Keynote et Xcode.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)