‘xAI a choisi Ethernet plutôt qu’InfiniBand pour son cluster d’entraînement H100 Colossus’

Dans un exploit remarquable de spécification et d’assemblage, le supercalculateur innovant de xAI, « Colossus », doté d’un époustouflant 100 000 GPU Nvidia Hopper, s’abstient d’utiliser l’InfiniBand traditionnellement employé. Au lieu de cela, le géant numérique Nvidia a intégré son tissu Ethernet Spectrum-X novateur dans le système colossal présenté comme le « plus grand supercalculateur d’IA au monde ». Fait intéressant, cette centrale a été conçue dans le seul but d’équiper la ligne Grok de modèles de langage large de xAI. Ces modèles constituent l’épine dorsale du chatbot révolutionnaire niché au sein de la plateforme bourdonnante communément appelée ‘X’, une entreprise ambitieuse d’Elon Musk.

Faisant une déclaration robuste dans le monde de la technologie avec sa taille pure, Colossus exploite fièrement plus du double du volume de GPU que le supercalculateur Frontier américain de haut niveau, situé au Oak Ridge National Laboratory, qui possède environ 38 000 accélérateurs AMD MI250X.

Plus frappant encore est le déploiement incroyablement rapide de Colossus qui était entièrement fonctionnel et prêt à être formé en 19 jours, soit une période de déploiement total de 122 jours.

Quant à ses capacités maximales, le cluster xAI présente une capacité impressionnante de 98,9 exaFLOPS en capacité FP/BF16 dense. Ce nombre augmente de manière exponentielle lorsque le supercalculateur utilise la rareté pendant la formation – il double pour atteindre environ 395 exaFLOPS pendant la formation à une précision FP8 peu dense.

Cependant, ces chiffres de performance surréalistes promettent de monter encore plus haut, selon les rapports de Nvidia. Ils confirment que xAI a déjà commencé à intégrer 100 000 GPU Hopper supplémentaires dans le cluster Colossus. La spéculation est que cet ajout doublera les performances de la centrale, établissant ainsi des normes définitives en matière de calcul IA.

Share the Post: