« Etched regarde pour défier Nvidia avec un ASIC spécialement conçu pour les modèles de transformation »

Suite au lancement de ChatGPT à la fin de 2022, les GPU – en particulier ceux de Nvidia – sont devenus synonymes d’intelligence artificielle générative. Cependant, compte tenu de l’ampleur à laquelle l’IA est actuellement déployée, certains se demandent si une approche spécifique à une application des modèles transformer – l’architecture fondamentale sur laquelle sont basés les grands modèles de langage et de diffusion – pourrait offrir de meilleures performances et une plus grande efficacité que les accélérateurs existants. C’est le pari que la start-up en infrastructure AI, Etched, est en train de faire avec sa première puce d’inférence, surnommée Sohu. Contrairement aux GPU – qui, malgré leur nom, sont bel et bien des processeurs généralistes – le premier produit d’Etched est conçu pour faire une seule chose et une seule chose seulement : servir des modèles transformer, comme les LLMs. La puce ne peut pas exécuter des réseaux neuronaux convolutionnels, des espaces d’état, ou tout autre type de modèle AI – seulement des transformers. En éliminant la flexibilité associée à la génération actuelle d’accélérateurs et en se concentrant non seulement sur l’IA, mais sur des types de modèles spécifiques, Etched prétend obtenir un avantage de performance de 20 fois supérieur au Nvidia H100. « Si vous êtes prêt à vous spécialiser – si vous êtes prêt à parier sur l’architecture, essentiellement intégrer cette architecture de transformer dans le silicium – vous pouvez obtenir beaucoup plus de performances, comme un ordre de grandeur de performances supplémentaires », a vanté le directeur des opérations, Robert Wachen, dans une interview avec The Register.

Share the Post: