Apple Optimise LLMs pour les Cas d’Utilisation de Bord

Apple a publié un article intitulé «LLM en un clin d’œil : inférence de modèle de langage large avec mémoire limitée» décrivant une méthode permettant de faire fonctionner les LLM sur des appareils qui dépassent la capacité de mémoire vive disponible. Cela implique le stockage des paramètres de modèle sur une mémoire flash et leur apport sur demande vers la mémoire vive. Leur méthode consiste à construire un modèle de coût d’inférence qui s’aligne sur le comportement de la mémoire flash, ce qui guide les efforts d’optimisation dans deux domaines cruciaux : réduction du volume de données transférées depuis la mémoire flash et lecture de données en blocs plus importants et plus contigus. Dans ce cadre informé par la mémoire flash, Apple utilise deux techniques principales. Tout d’abord, la fenêtrage réduit stratégiquement le transfert de données en réutilisant les neurones précédemment activés, et secondement, le regroupement de lignes et de colonnes, adapté aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus depuis la mémoire flash. Ces méthodes permettent collectivement de faire fonctionner des modèles jusqu’à deux fois plus importants que la mémoire vive disponible, avec une augmentation de la vitesse d’inférence de 4 à 5x et de 20 à 25x par rapport aux approches naïves de chargement dans les CPU et GPUs, respectivement. Ces travaux sont importants car Apple prévoit d’intégrer des capacités d’IA générative dans iOS 18. Le nouveau système d’exploitation exploitera la technologie d’IA générative pour améliorer Siri et l’application Messages, leur permettant de répondre plus efficacement aux questions et de compléter automatiquement les phrases. Apple explore également le potentiel d’utilisation de l’IA générative dans des applications telles que Apple Music, Pages, Keynote et Xcode.

Share the Post: