Apple optimise les LLM pour les cas d’utilisation sur Edge

Apple a publié un document intitulé « LLM en un éclair : Inférence efficace de modèles de langage volumineux avec une mémoire limitée », décrivant une méthode pour exécuter des LLM sur des appareils qui dépassent la capacité de la DRAM disponible. Cela implique de stocker les paramètres du modèle sur la mémoire flash et de les amener à la demande dans la DRAM. Leur méthode consiste à construire un modèle de coût d’inférence qui correspond au comportement de la mémoire flash, guidant les efforts d’optimisation dans deux domaines cruciaux : réduire le volume de données transférées depuis la flash et lire les données en blocs plus grands et plus contigus. Dans ce cadre informé par la mémoire flash, Apple utilise deux techniques principales. Premièrement, la « fenêtrage » réduit stratégiquement le transfert de données en réutilisant les neurones précédemment activés, et deuxièmement, le « regroupement de rangées et de colonnes », adapté aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus depuis la mémoire flash. Ces méthodes permettent collectivement d’exécuter des modèles jusqu’à deux fois plus grands que la DRAM disponible, avec une augmentation de la vitesse d’inférence de 4 à 5 fois et de 20 à 25 fois par rapport aux approches de chargement naïves en CPU et GPU respectivement. Cette recherche est significative car Apple prévoit d’intégrer des capacités d’intelligence artificielle générative dans iOS 18. Le nouveau système d’exploitation exploitera la technologie d’intelligence artificielle générative pour améliorer Siri et l’application Messages, leur permettant de répondre aux questions et de compléter automatiquement les phrases de manière plus efficace. Apple explore également l’utilisation potentielle de l’intelligence artificielle générative dans des applications telles que Apple Music, Pages, Keynote et Xcode.

Share the Post: