Suite au lancement de ChatGPT fin 2022, les GPU – en particulier ceux de Nvidia – sont devenus synonymes d’IA générative. Cependant, étant donné l’ampleur à laquelle l’IA est désormais déployée, certains se demandent si une approche spécifique aux applications des modèles transformer – l’architecture fondamentale sur laquelle reposent les grands modèles de langage et de diffusion – pourrait offrir de meilleures performances et une plus grande efficacité que les accélérateurs existants. C’est le pari que fait la start-up d’infrastructure AI Etched avec sa première puce d’inférence, baptisée Sohu. Contrairement aux GPU – qui, malgré leur nom, sont des processeurs tout à fait polyvalents – le premier produit d’Etched est conçu pour faire une seule chose et une seule chose seulement : servir des modèles transformer, comme les LLM. La puce ne peut pas exécuter de réseaux neuronaux convolutifs, d’espaces d’états ou tout autre type de modèle d’IA – seulement des transformers. En éliminant la flexibilité associée à la génération actuelle d’accélérateurs et en se concentrant non seulement sur l’IA, mais sur des types de modèles spécifiques, Etched prétend obtenir un avantage de performance 20 fois supérieur à celui du H100 de Nvidia. « Si vous êtes prêt à vous spécialiser – si vous êtes prêt à parier sur l’architecture, essentiellement graver cette architecture de transformateur dans le silicium – vous pouvez obtenir beaucoup plus de performance, comme un ordre de grandeur de plus de performance, » a vanté le COO Robert Wachen dans une entrevue avec The Register.
Donnez vie à vos histoires avec Epidemic Sound
Dans le monde numérique d’aujourd’hui, le contenu visuel est roi. Mais qu’est-ce qui transforme une bonne vidéo en une expérience