‘Apple optimise les LLM pour les cas d’utilisation des bords’

Apple a publié un article intitulé «LLM en un éclair: une inférence de grand modèle de langage efficace avec une mémoire limitée» décrivant une méthode pour exécuter des LLM sur des appareils qui dépassent la capacité de mémoire DRAM disponible. Cela implique le stockage des paramètres de modèle sur la mémoire flash et leur apport sur demande à la mémoire DRAM. Leur méthode consiste à construire un modèle de coût d’inférence qui s’aligne sur le comportement de la mémoire flash, ce qui guide les efforts d’optimisation dans deux domaines cruciaux: réduire le volume de données transférées de la mémoire flash et lire les données en blocs plus importants et plus contigus Dans ce cadre informé par la mémoire flash, Apple utilise deux techniques principales. Tout d’abord, le «fenêtrage» réduit stratégiquement le transfert de données en réutilisant les neurones déjà activés, et secondement, le «groupement de lignes-colonnes», adapté aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus à partir de la mémoire flash. Ces méthodes permettent collectivement de faire fonctionner des modèles jusqu’à deux fois plus gros que la mémoire DRAM disponible, avec une augmentation de 4 à 5 fois et de 20 à 25 fois de la vitesse d’inférence par rapport aux approches naïves de chargement dans CPU et GPU, respectivement. Ces recherches sont importantes car Apple prévoit d’intégrer des capacités d’IA générative dans iOS 18. Le nouvel OS utilisera la technologie d’IA générative pour améliorer Siri et l’application Messages, ce qui leur permettra de répondre aux questions et de compléter automatiquement les phrases de manière plus efficace. Apple explore également les applications potentielles de l’IA générative dans des applications telles que Apple Music, Pages, Keynote et Xcode.

Share the Post: