« L’économie problématique de l’IA uniquement CPU »

‘Dans le monde dynamique de l’informatique avancée et de l’IA, la nécessité de disposer d’accélérateurs hautement spécialisés tels que les GPU a déjà été considérée comme d’une importance primordiale. Cependant, de récentes découvertes de Google ont relancé une discussion sur le potentiel de l’informatique basée sur les CPU conventionnels pour les applications d’IA en entreprise. En particulier, les projecteurs sont désormais braqués sur les extensions matricielles avancées que l’on trouve dans les cœurs Xeon de 4ème génération (Sapphire Rapids) d’Intel alors que Google signale des tests réussis de grands modèles linguistiques (LLM) avec des milliards de paramètres.

Les expériences de Google se sont concentrées sur l’évaluation de la performance des CPU Xeon dans la gestion de grands modèles linguistiques allant de sept à 13 milliards de paramètres avec une précision de 16 bits. Les résultats ont été prometteurs, Google parvenant à obtenir des latences de second jeton acceptables – un indicateur de performance clé pour ces modèles.

Ces tests ont été effectués à l’aide d’une machine virtuelle C3 équipée de 176 vCPU. Cependant, Google a précisé que seul la moitié des fils disponibles (88 fils) étaient actifs pendant les tests, démontrant que l’hyperthreading – une méthode utilisée pour augmenter les performances du processeur – n’était pas nécessaire pour obtenir ces résultats.

Les essais montrent qu’en utilisant une paire de Xeons de 4ème génération, le géant de la technologie a réussi à atteindre des latences de sortie de 55 millisecondes par jeton dans Llama 2 7B. Selon un courriel de Google à The Register, ce benchmark a été atteint avec un temps par jeton de sortie (TPOT) de 55 millisecondes pour le modèle à 7B de paramètre.

Compte tenu de ces résultats, il semble que les CPU aient été sous-estimés dans leur capacité à soutenir les fonctions d’IA. Les cas d’utilisation de l’IA en entreprise pourraient potentiellement bénéficier de ces capacités, incitant à repenser la perception des CPU dans le paysage de l’IA. Alors que l’industrie continue de progresser, nous pouvons anticiper une exploration plus approfondie de l’étendue et des limites des différents aspects du matériel informatique.’

Share the Post: