Apple optimise les LLM pour les cas d’utilisation en bordure

Apple a publié un papier intitulé «LLM en un éclair: inférence de modèle de langage large efficace avec mémoire limitée» décrivant une méthode permettant de faire fonctionner les LLM sur des périphériques qui dépassent la capacité de DRAM disponible. Cela implique le stockage des paramètres du modèle sur la mémoire flash et leur mise à disposition sur demande en mémoire DRAM. Leur méthode consiste à construire un modèle de coût d’inférence qui s’aligne sur le comportement de la mémoire flash, ce qui oriente les efforts d’optimisation dans deux domaines cruciaux: réduction du volume de données transférées de la mémoire flash et lecture de données en blocs plus grands et plus contigus. Dans ce cadre informé par la mémoire flash, Apple utilise deux techniques principales. Premièrement, le «fenêtrage» réduit stratégiquement le transfert de données en réutilisant les neurones activés précédemment, et deuxièmement, le «bundling par lignes et par colonnes», adapté aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus à partir de la mémoire flash. Ces méthodes permettent collectivement de faire fonctionner des modèles jusqu’à deux fois plus gros que la mémoire DRAM disponible, avec une augmentation de 4 à 5x et de 20 à 25x de la vitesse d’inférence par rapport aux approches naïves de chargement en CPU et en GPU, respectivement. Ces recherches sont importantes car Apple prévoit d’intégrer des capacités d’IA générative à iOS 18. Le nouvel OS utilisera la technologie d’IA générative pour améliorer Siri et l’application Messages, ce qui leur permettra de répondre plus efficacement aux questions et de compléter automatiquement les phrases. Apple explore également le potentiel d’utilisation de l’IA générative dans des applications telles que Apple Music, Pages, Keynote et Xcode.

Share the Post: