La société Apple a publié un article intitulé «LLM en un éclair : une inférence de grand modèle de langue efficace avec une mémoire limitée» décrivant une méthode permettant de faire fonctionner des LLM sur des appareils dépassant la capacité de mémoire DRAM disponible. Cela implique le stockage des paramètres de modèle sur une mémoire flash et leur transfert en mémoire DRAM au besoin. Leur méthode consiste à construire un modèle de coût d’inférence qui s’aligne sur le comportement de la mémoire flash, ce qui guide les efforts d’optimisation sur deux aspects cruciaux : réduire le volume de données transférées de la mémoire flash et lire les données en blocs plus importants et plus contigus. Dans ce cadre informé par la mémoire flash, Apple utilise deux techniques principales. Premièrement, la fenêtrage réduit de manière stratégique le transfert de données en réutilisant les neurones précédemment activés, et deuxièmement, l’agrégation de lignes et de colonnes, adaptée aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus à partir de la mémoire flash. Ces méthodes permettent collectivement de faire fonctionner des modèles jusqu’à deux fois plus grands que la mémoire DRAM disponible, avec une augmentation de 4 à 5x et de 20 à 25x de la vitesse d’inférence par rapport aux approches naïves de chargement en CPU et en GPU, respectivement. Ces recherches sont importantes car Apple prévoit d’intégrer des capacités d’apprentissage automatique génératif dans iOS 18. Le nouvel OS exploitera la technologie d’apprentissage automatique génératif pour améliorer Siri et l’application Messages, ce qui leur permettra de répondre plus efficacement aux questions et de compléter automatiquement des phrases. Apple explore également le potentiel d’utilisation de l’apprentissage automatique génératif dans des applications telles que Apple Music, Pages, Keynote et Xcode.
Équilibrer la Numérisation et la Sobriété Numérique dans la Formation Professionnelle : Solutions Actuelles et Besoins Émergents
La formation professionnelle tout au long de la vie (FTLV) connaît une transformation significative dans le contexte actuel de numérisation