Data Center
Infrastructure, Servers, Network, Storage
Datacenters, moins de pannes, mais…
Plus de la moitié des opérateurs de datacenters ont subi une panne au cours des trois dernières années. Celle-ci n’était jugée sérieuse que dans un cas sur dix.
De plus en plus de datacenters, mais pas davantage de pannes pour autant. C’est le constat que dresse l’Uptime Institute dans son Annual Outage Analysis 2024. En revanche, lorsque des incidents surviennent, ils peuvent être très coûteux pour l’organisation concernée, les problèmes d’alimentation entraînant les pannes les plus graves.
Ce mieux s’explique par différentes raisons. Pour commencer, le fait que de nombreuses organisations investissent davantage dans la redondance des infrastructures physiques. Ensuite, le passage au cloud public et l’adoption de nouvelles technologies pour aider à se conformer aux réglementations en matière de reporting et d’amélioration de la résilience et de la performance énergétique
L’Uptime Institute prévient cependant que les données relatives aux pannes doivent être traitées avec précaution. De fait, elles sont souvent commercialement sensibles.
Moins de pannes « graves » ou « très graves », mais…
Selon cette dernière édition, 55 % des opérateurs de datacenters expliquent avoir subi une panne au cours des trois dernières années (2021, 2022 et 2023), contre 60 % et 69 % lors de deux précédentes moutures de cette même enquête. Dans le même temps, seule une panne sur 10 a été jugée « grave » ou « très grave ». Quatre points de moins en l’espace de deux ans ! Et même 10 de moins par rapport à 2021…
Dans le même temps, seule une panne sur dix au cours de l’année écoulée a été classée comme « grave » ou « très grave ». En revanche, 54 % ont indiqué que leur dernière panne importante, « grave » ou « très grave » a coûté à l’organisation plus de 100 000 EUR…
En ce qui concerne les pannes les plus graves, la perturbation de la distribution électrique sur site constitue depuis plusieurs années le facteur le plus important, répertorié dans 52 % des incidents dans le dernier rapport.
Les réseaux électriques montrés du doigt
L’Uptime Institute affirme qu’il existe des preuves selon lesquelles l’évolution vers des réseaux électriques plus dynamiques utilisant des énergies renouvelables réduit la fiabilité du réseau. Les centres de données pourraient d’ailleurs connaître une augmentation des pannes à mesure que cette tendance progresse. De nombreuses pannes se produisent lorsqu’un UPS ou un générateur ne parvient pas à répondre à une perturbation du réseau.
Microsoft a subi une telle panne de ses services Azure en Europe occidentale l’année dernière lorsqu’une perturbation de l’alimentation électrique fournie par la société de services publics l’a amené à passer à l’alimentation par générateur dans un centre de données… mais un sous-ensemble de générateurs n’a pas fonctionné comme prévu.
La deuxième cause la plus importante est une panne ou une sous-performance de l’équipement de refroidissement. Cela a également pu être constaté l’année dernière, lorsque 2,5 millions de transactions de paiement n’ont pas pu être finalisées en raison d’une panne du système de refroidissement d’un centre de données Equinix utilisé par deux banques à Singapour, DBS et Citibank.
Vers davantage d’instabilité du réseau électrique
L’Uptime Institute fait encore ressortir le poids de l’alimentation électrique dans les pannes. Pas moins de 52% des incidents trouvent leur origine principale dans des problèmes de distribution de puissance. « Ce qui n’est guère surprenant étant donné l’intolérance du matériel informatique à toute perturbation électrique importante, telle que les fluctuations de tension ou la perte totale d’alimentation durant plus d’une fraction de seconde », écrit l’organisme dans sa synthèse.
La transition en cours vers des réseaux électriques plus transactionnels et dynamiques, du fait du poids grandissant des énergies renouvelables, devrait encore accroître l’instabilité sur ce terrain, estime l’institut. Les problèmes liés au refroidissement (19 %), à des prestataires tiers de cloud ou de colocation et éditeurs SaaS (9 %) ou aux systèmes IT eux-mêmes (8 %) arrivent assez loin derrière le sujet de l’approvisionnement électrique.
Procédure mal respectées
Le rapport révèle également que l’erreur humaine est un facteur contribuant à de nombreuses pannes, allant de deux tiers à quatre cinquièmes de tous les incidents de temps d’arrêt. Ces problèmes peuvent être dus au fait que le personnel ne respecte pas les procédures… ou quand les procédures elles-mêmes sont inadéquates.
La Bourse de New York, par exemple, a subi un incident l’année dernière après qu’un employé n’a pas réussi à arrêter un système de reprise après sinistre dans le centre de données secondaire de la bourse. Comme ce système a fonctionné du jour au lendemain, le logiciel qui gère le NYSE a agi comme si la négociation avait déjà commencé et a empêché la fixation correcte des prix d’ouverture des enchères… « Bien que la fréquence des pannes ait diminué, il n’y a pas lieu de se reposer sur ses lauriers », estime l’Uptime Institute. Au contraire, un fort consensus se dégage dans le secteur, y compris chez les régulateurs, sur le fait que les taux d’interruption sont toujours préoccupants.