Alibaba Cloud révèle sa conception de centre de données, réseau fait maison utilisé pour la formation LLM.

Alibaba Cloud exclusif a révélé la conception d’un réseau basé sur Ethernet qu’elle a spécifiquement créé pour transporter le trafic nécessaire à l’entraînement de grands modèles de langage – et a utilisé en production pendant huit mois. Le Cloud chinois a également révélé que son choix d’Ethernet était motivé par le désir d’éviter l’enfermement aux fournisseurs et de tirer parti « de la puissance de l’ensemble de l’Ethernet Alliance pour une évolution plus rapide » – une décision qui soutient les arguments avancés par un groupe de fournisseurs cherchant à concurrencer l’activité de mise en réseau de Nvidia. Les plans d’Alibaba ont été révélés sur la page GitHub d’Ennan Zhai – un ingénieur du personnel supérieur d’Alibaba Cloud et un chercheur spécialisé dans la recherche en réseau. Zhai a publié un papier [PDF] qui sera présenté lors de la conférence SIGCOMM d’août – le rendez-vous annuel du groupe d’intérêt spécial de l’Association for Computing Machinery sur les communications de données. Intitulé « Alibaba HPN : Un réseau de data center pour l’entraînement des grands modèles de langage », le papier commence par constater que le trafic du cloud computing « … génère des millions de petites flux (par exemple, inférieurs à 10 Gbit/s) », tandis que l’entraînement des LLM « produit un petit nombre de flux périodiques à débit important (par exemple, 400 Gbit/s) sur chaque hôte. » Le routage multicanaux à coût égal – une méthode couramment utilisée pour envoyer des paquets vers une seule destination via plusieurs chemins – devient prédisposé à la polarisation du hachage – un phénomène qui voit l’équilibrage de charge lutter et peut réduire significativement la bande passante utilisable.

Share the Post: