‘Apple optimise les LLM pour les cas d’utilisation Edge’

Apple a publié un article intitulé « LLM in a flash: Efficient Large Language Model Inference with Limited Memory », décrivant une méthode pour exécuter des LLM sur des appareils dépassant la capacité de la mémoire DRAM disponible. Cela implique de stocker les paramètres du modèle sur une mémoire flash et de les amener à la demande dans la mémoire DRAM. Leur méthode consiste à créer un modèle de coût d’inférence qui s’aligne sur le comportement de la mémoire flash, guidant les efforts d’optimisation dans deux domaines cruciaux: réduire le volume de données transférées depuis la mémoire flash et lire des données par blocs plus importants et plus contigus. Dans ce cadre basé sur la mémoire flash, Apple utilise deux techniques principales. Premièrement, « l’échantillonnage par fenêtre » réduit stratégiquement le transfert de données en réutilisant les neurones déjà activés, et deuxièmement, « la mise en paquets de rangées-colonnes », adaptée aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus depuis la mémoire flash. Ces méthodes permettent collectivement d’exécuter des modèles d’une taille deux fois supérieure à la capacité de la DRAM disponible, avec une augmentation de vitesse d’inférence de 4 à 5 fois en CPU et de 20 à 25 fois en GPU, par rapport aux approches de chargement naïves. Cette recherche est importante car Apple prévoit d’intégrer des capacités d’IA générative dans iOS 18. Le nouveau système d’exploitation exploitera la technologie d’IA générative pour améliorer Siri et l’application Messages, en leur permettant de répondre aux questions et de compléter automatiquement les phrases de manière plus efficace. Apple explore également l’utilisation potentielle de l’IA générative dans des applications telles que Apple Music, Pages, Keynote et Xcode.

Share the Post: