Suite au lancement de ChatGPT à la fin de 2022, les GPU – en particulier ceux de Nvidia – sont devenus synonymes d’intelligence artificielle générative. Cependant, compte tenu de l’ampleur à laquelle l’IA est actuellement déployée, certains se demandent si une approche spécifique à une application des modèles transformer – l’architecture fondamentale sur laquelle sont basés les grands modèles de langage et de diffusion – pourrait offrir de meilleures performances et une plus grande efficacité que les accélérateurs existants. C’est le pari que la start-up en infrastructure AI, Etched, est en train de faire avec sa première puce d’inférence, surnommée Sohu. Contrairement aux GPU – qui, malgré leur nom, sont bel et bien des processeurs généralistes – le premier produit d’Etched est conçu pour faire une seule chose et une seule chose seulement : servir des modèles transformer, comme les LLMs. La puce ne peut pas exécuter des réseaux neuronaux convolutionnels, des espaces d’état, ou tout autre type de modèle AI – seulement des transformers. En éliminant la flexibilité associée à la génération actuelle d’accélérateurs et en se concentrant non seulement sur l’IA, mais sur des types de modèles spécifiques, Etched prétend obtenir un avantage de performance de 20 fois supérieur au Nvidia H100. « Si vous êtes prêt à vous spécialiser – si vous êtes prêt à parier sur l’architecture, essentiellement intégrer cette architecture de transformer dans le silicium – vous pouvez obtenir beaucoup plus de performances, comme un ordre de grandeur de performances supplémentaires », a vanté le directeur des opérations, Robert Wachen, dans une interview avec The Register.
Donnez vie à vos histoires avec Epidemic Sound
Dans le monde numérique d’aujourd’hui, le contenu visuel est roi. Mais qu’est-ce qui transforme une bonne vidéo en une expérience