Suite au lancement de ChatGPT fin 2022, les GPU – en particulier ceux de Nvidia – sont devenus synonymes d’IA générative. Cependant, étant donné l’ampleur à laquelle l’IA est désormais déployée, certains se demandent si une approche spécifique aux applications des modèles transformer – l’architecture fondamentale sur laquelle reposent les grands modèles de langage et de diffusion – pourrait offrir de meilleures performances et une plus grande efficacité que les accélérateurs existants. C’est le pari que fait la start-up d’infrastructure AI Etched avec sa première puce d’inférence, baptisée Sohu. Contrairement aux GPU – qui, malgré leur nom, sont des processeurs tout à fait polyvalents – le premier produit d’Etched est conçu pour faire une seule chose et une seule chose seulement : servir des modèles transformer, comme les LLM. La puce ne peut pas exécuter de réseaux neuronaux convolutifs, d’espaces d’états ou tout autre type de modèle d’IA – seulement des transformers. En éliminant la flexibilité associée à la génération actuelle d’accélérateurs et en se concentrant non seulement sur l’IA, mais sur des types de modèles spécifiques, Etched prétend obtenir un avantage de performance 20 fois supérieur à celui du H100 de Nvidia. « Si vous êtes prêt à vous spécialiser – si vous êtes prêt à parier sur l’architecture, essentiellement graver cette architecture de transformateur dans le silicium – vous pouvez obtenir beaucoup plus de performance, comme un ordre de grandeur de plus de performance, » a vanté le COO Robert Wachen dans une entrevue avec The Register.
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)