use, and the datacenter went dark shortly after. The datacenter provider had an uninterruptible power supply (UPS) system that was supposed to kick in and power the facility for 10 minutes while generators were brought online. Cloudflare’s network operations center (NOC) team was notified of a power outage at the datacenter at around 1730 UTC. In the meantime, the firm was told that the power failure would be fixed within two hours. The datacenter provider said it would be placing the facility on emergency generators for the time being. Cloudflare was told a little later that the datacenter provider could not immediately bring online the generators due to a utility issue. The firm was given a new ETA of 1230 UTC on Friday for the power to be restored. Cloudflare was told at about 1230 UTC on Friday that the facility would be switched over to backup batteries. The switch to the batteries was made at 1240 UTC and the batteries were expected to last for 10 minutes. Cloudflare’s NOC team was told at 1258 UTC that the batteries had failed and the datacenter was dark. Cloudflare was told at 1315 UTC that the batteries had failed. The datacenter provider could not immediately bring online the generators due to a utility issue. Cloudflare was given a new ETA of 1230 UTC on Friday for the power to be restored. Cloudflare was told at about 1230 UTC on Friday that the facility would be switched over to backup batteries. The switch to the batteries was made at 1240 UTC and the batteries were expected to last for 10 minutes. Cloudflare’s NOC team was told at 1258 UTC that the batteries had failed and the datacenter was dark. Cloudflare was told at 1315 UTC that the datacenter provider could not immediately bring online the generators due to a utility issue. Cloudflare was given a new ETA of 1230 UTC on Friday for the power to be restored.’
Cloudflare a expliqué ce qu’il pense avoir subi pendant ce dysfonctionnement de plusieurs jours du plan de contrôle et des analyses. Le résumé est le suivant : un centre de données utilisé par Cloudflare aurait apparemment basculé sans aucun avertissement ou presque, de l’utilisation de deux sources d’alimentation électrique, à une source d’alimentation et des générateurs de secours, puis uniquement sur des batteries de secours, pour finalement ne plus rien avoir, le tout en quelques heures et quelques minutes. Et Cloudflare a ensuite découvert à ses dépens que ses plans de reprise d’activité à partir de ce centre de données vers d’autres établissements ne fonctionnaient pas tout à fait comme prévu. Dans un rapport post-mortem publié à la suite du temps d’arrêt, le PDG Matthew Prince a décrit le dysfonctionnement, qui a duré du 11h43 UTC du jeudi 2 novembre au samedi 4 novembre à 04h25 UTC, du point de vue de son entreprise de CDN. Pendant le dysfonctionnement informatique, ce ne sont pas seulement les services d’analyse de Cloudflare qui ont été perturbés ou indisponibles, notamment la journalisation, mais aussi le plan de contrôle ; c’est l’interface client de tous ses services. On nous a dit que le plan de contrôle avait été principalement restauré à 17h57 UTC le jeudi grâce à l’utilisation d’un centre de secours. Les principales tâches de réseau et de sécurité de Cloudflare ont continué comme d’habitude pendant le dysfonctionnement, même si les clients ne pouvaient pas apporter de modifications à leurs services à certaines périodes, a déclaré Prince. En réalité, les batteries ont commencé à faiblir après seulement quatre minutes d’utilisation et le centre de données est devenu noir peu de temps après. Le fournisseur de centre de données disposait d’un système d’alimentation sans interruption (UPS) qui aurait dû entrer en fonction et alimenter l’établissement pendant 10 minutes pendant que les générateurs étaient mis en service. L’équipe du centre de contrôle de réseau (NOC) de Cloudflare a été informée d’une panne d’électricité au centre de données aux alentours de 17h30 UTC. En attendant, on nous a dit que la panne d’électricité serait réparée dans les deux heures. Le fournisseur de centre de données a déclaré qu’il allait mettre l’établissement sur des générateurs de secours pour le moment. On a informé Cloudflare un peu plus tard que le fournisseur de centre de données ne pouvait pas immédiatement mettre en service les générateurs en raison d’un problème d’alimentation. On a donné à Cloudflare une nouvelle estimation de 12h30 UTC le vendredi pour la réparation de l’alimentation. On a dit à Cloudflare vers 12h30 UTC le vendredi que l’établissement serait basculé sur les batteries de secours. Le basculement sur les batteries a été effectué à 12h40 UTC et les batteries devaient durer 10 minutes. On a dit à l’équipe NOC de Cloudflare à 12h58 UTC que les batteries avaient échoué et que le centre de données était noir. On a dit à Cloudflare à 13h15 UTC que le fournisseur de centre de données ne pouvait pas immédiatement mettre en service les générateurs en raison d’un problème d’alimentation. On a donné à Cloudflare une nouvelle estimation de 12h30 UTC le vendredi pour la réparation de l’alimentation. On a dit à