« Le Cloud de Huawei a construit un moniteur réseau si sensible qu’il a détecté l’impact d’une seule puce défectueuse. »

Sigcomm 2024 Huawei Cloud a développé un outil de surveillance de réseau qui, lorsqu’il est utilisé en production dans trois de ses propres régions, a pu observer une plus grande partie de son infrastructure que les outils existants, et a révélé des problèmes qui échappaient auparavant aux efforts humains. L’outil s’appelle RD-Probe et a été détaillé dans un article [PDF] présenté mardi lors de la conférence SIGCOMM 2024 à Sydney. L’article explique que la surveillance de réseau est vitale mais difficile à réaliser à grande échelle. Les auteurs – certains de Huawei et d’autres de l’École d’informatique de l’Université de Pékin – citent des recherches AWS [PDF] indiquant que le cloud amazonien dispose de 1087 combinaisons de liens intra-régionaux et 10176 combinaisons de liens inter-régionaux (et révèlent également que les réseaux de datacenters de Huawei Cloud comprennent plus de 100 000 commutateurs et un million de serveurs). Surveiller toute cette infrastructure et tous ces chemins – dans un environnement virtualisé qui utilise le hasard pour l’équilibrage de charge – rend très difficile la collecte de suffisamment de données sur ce qui se passe au niveau 2. RD-Probe est la tentative de Huawei Cloud pour résoudre ce problème. Les développeurs de l’outil ont décidé de surveiller chaque port physique de niveau 2, car cela leur permet d’observer l’état d’exécution des tissus de commutation. Ne considérer que le niveau 3, écrivent les auteurs, signifierait que certains ports ne seraient pas surveillés. La surveillance des ports physiques aide également à obtenir une couverture plus étendue qu’il n’est possible en observant les réseaux virtuels – qui, par leur nature même, abstraient certaines des ressources utilisées pour les exécuter. Ce n’est pas souhaitable car sans une couverture complète, les outils de surveillance de réseau auront des angles morts entraînant la non-détection de problèmes.

Share the Post: