Suite au lancement de ChatGPT à la fin de l’année 2022, les GPU – Nvidia en particulier – sont devenus synonymes d’intelligence artificielle générative. Cependant, étant donné l’ampleur à laquelle l’IA est maintenant déployée, certains se demandent si une approche spécifique aux applications des modèles de transformateur – l’architecture fondamentale sur laquelle sont basés les grands modèles de langage et de diffusion – pourrait offrir de meilleures performances et une plus grande efficacité que les accélérateurs existants. C’est le pari que fait la start-up d’infrastructure IA Etched avec sa première puce d’inférence, baptisée Sohu. Contrairement aux GPU – qui, malgré leur nom, sont des processeurs très polyvalents – le premier produit d’Etched est conçu pour faire une chose et une seule chose : servir des modèles transformateurs, comme LLMs. La puce ne peut pas exécuter de réseaux neuronaux convolutifs, d’espaces d’état ou tout autre type de modèle d’IA – juste des transformateurs. En éliminant la flexibilité associée à la génération actuelle d’accélérateurs et en se concentrant non seulement sur l’IA, mais sur des types de modèles spécifiques, Etched prétend obtenir un avantage de performance de 20 fois supérieur à celui du Nvidia H100. « Si vous êtes prêt à vous spécialiser – si vous êtes prêt à parier sur l’architecture, essentiellement graver cette architecture de transformateur dans le silicium – vous pouvez obtenir beaucoup plus de performances, comme un ordre de grandeur de performances supplémentaires », a vanté le COO Robert Wachen dans une interview avec The Register.
Donnez vie à vos histoires avec Epidemic Sound
Dans le monde numérique d’aujourd’hui, le contenu visuel est roi. Mais qu’est-ce qui transforme une bonne vidéo en une expérience