Apple optimise les LLM pour les cas d’utilisation des bords

Apple a publié un article intitulé «LLM en un éclair : une inférence de modèle de langage large efficace avec un stockage limité en mémoire» décrivant une méthode permettant de faire fonctionner des LLM sur des appareils dépassant la capacité de stockage DRAM disponible. Cela implique le stockage des paramètres de modèle sur une mémoire flash et leur mise à disposition au besoin en mémoire DRAM. Leur méthode consiste à construire un modèle de coût d’inférence qui s’aligne sur le comportement de la mémoire flash, ce qui guide les efforts d’optimisation dans deux domaines cruciaux : réduire le volume de données transférées de la mémoire flash et lire les données en blocs plus importants et plus contigus. Dans ce cadre informé par la mémoire flash, Apple utilise deux techniques principales. Premièrement, la «fenêtrage» réduit de manière stratégique le transfert de données en réutilisant des neurones précédemment activés, et deuxièmement, le «groupement de lignes et de colonnes», adapté aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus de la mémoire flash. Ces méthodes permettent collectivement de faire fonctionner des modèles jusqu’à deux fois plus grands que la mémoire DRAM disponible, avec une augmentation de 4 à 5 fois et de 20 à 25 fois de la vitesse d’inférence par rapport aux approches naïves de chargement sur CPU et GPU, respectivement. Cette recherche est importante car Apple prévoit d’intégrer des fonctionnalités d’apprentissage automatique génératif dans iOS 18. Le nouveau système d’exploitation fera appel à la technologie d’apprentissage automatique génératif pour améliorer Siri et l’application Messages, afin qu’ils puissent répondre aux questions et compléter automatiquement les phrases de manière plus efficace. Apple explore également le potentiel d’utilisation de l’apprentissage automatique génératif dans des applications telles que Apple Music, Pages, Keynote et Xcode.

Share the Post: