« Intel, Ampere montrent que l’exécution de LLM sur les processeurs n’est pas aussi folle que cela puisse paraître. »

Les chatbots et services AI génératifs populaires tels que ChatGPT ou Gemini fonctionnent principalement sur des GPUs ou d’autres accélérateurs dédiés, mais à mesure que des modèles plus petits sont déployés plus largement dans les entreprises, les fabricants de CPU Intel et Ampere suggèrent que leurs produits peuvent également faire le travail – et leurs arguments ne sont pas entièrement dénués de mérite. Pour être clair, exécuter des LLMs sur des cœurs de CPU a toujours été possible – si les utilisateurs sont prêts à supporter des performances plus lentes. Cependant, la pénalité associée à l’AI basée uniquement sur CPU diminue à mesure que les optimisations logicielles sont mises en œuvre et que les goulots d’étranglement matériels sont atténués. Sur scène lors de l’événement Vision d’Intel en avril, le PDG Pat Gelsinger a révélé les progrès de la société de semi-conducteurs dans l’exécution de grands LLMs sur sa plateforme Xeon. Dans une démonstration de son futur processeur Granite Rapids Xeon 6, Gelsinger a montré le modèle Llama2-70B de Meta fonctionnant avec une précision de 4 bits et des latences du deuxième jeton de 82ms. La latence du premier jeton est le temps pendant lequel un modèle analyse une requête et génère le premier mot de sa réponse. La latence du deuxième jeton correspond au temps nécessaire pour fournir le jeton suivant à l’utilisateur final. Plus la latence est faible, meilleures sont les performances perçues. En conséquence, les performances d’inférence sont souvent exprimées en termes de millisecondes de latence ou de jetons par seconde. Selon notre estimation, une latence de jeton de 82ms correspond à environ 12 jetons par seconde.

Share the Post: