‘Apple optimise les LLM pour les cas d’utilisation du Edge’

Apple a publié un document intitulé ‘LLM en un instant : Inference efficace de modèles de langage volumineux avec une mémoire limitée’, qui expose une méthode permettant d’exécuter des LLM (modèles de langage volumineux) sur des appareils qui dépassent la capacité de la DRAM disponible. Cela implique de stocker les paramètres du modèle sur une mémoire flash et de les transférer à la demande vers la DRAM. Leur méthode consiste à construire un modèle de coût d’inférence qui s’aligne avec le comportement de la mémoire flash, guidant les efforts d’optimisation dans deux domaines cruciaux : réduire le volume de données transférées depuis la mémoire flash et lire les données par blocs plus importants et plus contigus. Dans ce cadre d’informations sur la mémoire flash, Apple utilise deux techniques principales. Tout d’abord, le « fenêtrage » réduit stratégiquement le transfert de données en réutilisant les neurones activés précédemment, et ensuite, le « groupage rang-colonne », adapté aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus depuis la mémoire flash. Ces méthodes permettent collectivement d’exécuter des modèles jusqu’à deux fois la taille de la DRAM disponible, avec une augmentation de 4 à 5 fois et de 20 à 25 fois de la vitesse d’inférence par rapport aux approches de chargement naïves sur CPU et GPU, respectivement. Cette recherche est importante car Apple prévoit d’intégrer des capacités d’IA générative dans iOS 18. Le nouveau système d’exploitation exploitera la technologie d’IA générative pour améliorer Siri et l’application Messages, leur permettant de répondre aux questions et de compléter automatiquement les phrases de manière plus efficace. Apple explore également l’utilisation potentielle de l’IA générative dans des applications telles qu’Apple Music, Pages, Keynote et Xcode.

Share the Post: