Alibaba Cloud dévoile sa conception de centre de données, réseau fait maison utilisé pour la formation LLM.

Alibaba Cloud exclusif a révélé la conception d’un réseau basé sur Ethernet qu’il a créé spécifiquement pour transporter le trafic destiné à la formation de grands modèles de langues – et qu’il a utilisé en production pendant huit mois. Le Cloud chinois a également révélé que son choix de l’Ethernet était motivé par le souhait d’éviter le verrouillage du fournisseur et de tirer parti « de la puissance de l’ensemble de l’Alliance Ethernet pour une évolution plus rapide » – une décision qui soutient les arguments avancés par une série de fournisseurs qui tentent de s’attaquer aux activités de réseautage de Nvidia. Les projets d’Alibaba ont été révélés sur la page GitHub d’Ennan Zhai – un ingénieur principal du Cloud Alibaba et chercheur spécialisé dans la recherche sur les réseaux. Zhai a publié un document [PDF] qui sera présenté lors de la conférence SIGCOMM d’août – la réunion annuelle du groupe spécialisé en communications de données de l’Association for Computing Machinery. Intitulé « Alibaba HPN: Un réseau de centre de données pour la formation de grands modèles de langues », le document commence par l’observation que le trafic du cloud computing « … génère des millions de petits flux (par exemple, inférieurs à 10 Gbit/s) », tandis que la formation LLM « produit un petit nombre de flux périodiques, explosifs (par exemple, 400 Gbit/s) sur chaque hôte ». Le routage multi-chemin à coût égal – une méthode couramment utilisée pour envoyer des paquets vers une seule destination via plusieurs chemins – devient prédisposé à la polarisation de hachage – un phénomène qui voit l’équilibrage de charge avoir du mal et peut réduire considérablement la largeur de bande utilisable.

Share the Post: