‘Apple optimise les LLM pour les cas d’utilisation Edge’

Apple a publié un article intitulé «LLM en un éclair: une inférence de grand modèle de langage efficace avec une mémoire limitée» décrivant une méthode permettant de faire fonctionner les LLM sur des appareils qui dépassent la capacité de mémoire vive disponible. Cela implique le stockage des paramètres de modèle sur la mémoire flash et leur mise en demande sur la mémoire vive. Leur méthode consiste à construire un modèle de coût d’inférence qui correspond au comportement de la mémoire flash, ce qui guide les efforts d’optimisation dans deux domaines cruciaux: réduction du volume de données transférées de la mémoire flash et lecture de données en blocs plus larges et plus contigus. Dans ce cadre informé de la mémoire flash, Apple utilise deux techniques principales. Tout d’abord, la fenêtrage réduit de manière stratégique le transfert de données en réutilisant les neurones précédemment activés, et secondement, le «groupement de lignes et de colonnes», adapté aux forces d’accès séquentiel aux données de la mémoire flash, augmente la taille des blocs de données lus de la mémoire flash. Ensemble, ces méthodes permettent de faire fonctionner des modèles jusqu’à deux fois plus gros que la mémoire vive disponible, avec une augmentation de 4 à 5x et de 20 à 25x de la vitesse d’inférence par rapport aux approches naïves de chargement dans les CPU et GPU, respectivement. Cette recherche est importante car Apple prévoit d’intégrer des capacités d’IA générative dans iOS 18. Le nouveau système d’exploitation fera appel à la technologie d’IA générative pour améliorer Siri et l’application Messages, afin qu’ils puissent répondre aux questions et compléter automatiquement les phrases de manière plus efficace. Apple explore également les potentialités de l’IA générative dans des applications telles que Apple Music, Pages, Keynote et Xcode.

Share the Post: