Lenovo refroidit… à l’eau chaude !
L’eau chaude, un des trois éléments de la technologie de refroidissement Neptune de Lenovo. Le plus marquant. Les résultats sont fantastiques.
De l’eau chaude pour refroidir ! Alors que la demande de puissance pour le calcul intensif augmente, la solution pour éviter la surchauffe de milliers de serveurs s’avère être leurs propres eaux usées, avance Lenovo.
C’est l’eau chaude produite par ses milliers de serveurs qui refroidit le LRZ, le centre de données et de calcul de Leibniz à Munich, en Allemagne. Ce n’est pas, on s’en doute, un supercalculateur ordinaire. Il comprend, certes, des milliers de nœuds, empilés sur de longues rangées dans un coffre-fort sans fenêtre. Sous l’œil des techniciens, tous travaillent sur de grandes énigmes en matière de traitement de données pour des organismes de recherche. Dans ce cadre, ils effectuent des simulations pour essayer de mieux prédire les futures catastrophes naturelles comme les tsunamis ou les tremblements de terre.
Les ventilateurs ? Pratiquement tous disparus !
Le centre est pourtant étrangement silencieux. Presque trop. Le ronflement familier de l’air chaud évacué par les ordinateurs énergivores est presque totalement absent. Les ventilateurs ? Ils ont pratiquement tous disparu. Le SuperMUC NG du LRZ, qui utilise d’innombrables serveurs ThinkSystem SD650 de Lenovo, ne nécessite pratiquement aucun ventilateur : il ne reste que ceux qui servent à refroidir les blocs d’alimentation et les refroidisseurs en ligne toutes les huit rangées.
Résultat ? «Il y a désormais moins de bruit dans le centre de données que dans un bureau classique», explique Rick Koopman, EMEA Technical Leader for High Performance Computing, Lenovo.
Malgré cela, Lenovo a réussi à maintenir le LRZ en activité tout en veillant à réduire les niveaux d’énergie de 40 %. Ce qui a permis de faire baisser considérablement la facture d’électricité. Et, par la même occasion, l’impact environnemental du centre. «Nous voulions optimiser ce qui entre dans un supercalculateur et ce qui en sort en termes d’efficacité», poursuit-il.
Le secret : une orientation durable et l’utilisation d’eau chaude pour refroidir le centre de données. Ce qui, à première vue, reviendrait à essayer de faire rouler une F1 en utilisant les émissions de son propre pot d’échappement.
Un géant écologique
Lenovo est depuis longtemps un acteur de premier plan dans le secteur du calcul intensif. En 2017, l’entreprise s’est fixée pour objectif de devenir le plus grand fournisseur mondial de systèmes de supercalcul, selon le classement du projet TOP500, à l’horizon 2020. Elle a atteint cet objectif un an plus tard.
«Le LRZ est principalement axé sur l’écologie. En mettant l’accent sur la durabilité et la réduction de l’empreinte carbone pour son grand supercalculateur polyvalent, il dispose maintenant d’un système très efficace», commente Rick Koopman. Et le SuperMUC NG n’est qu’un exemple : 177 des supercalculateurs à haut rendement énergétique du classement TOP500 de la liste Green500 sont des systèmes Lenovo !
De prime abord, le concept de «calcul intensif durable» s’apparente à un oxymore. De fait, à mesure que les processeurs deviennent de plus en plus rapides, ils nécessitent de plus en plus de puissance.
Le cap des 300 W en 2021
Lorsque l’entreprise a commencé à travailler sur le SuperMUC au LRZ en 2012, les nœuds de calcul HPC typiques utilisaient des processeurs qui nécessitaient une puissance de 100 à 120 W (watts) par processeur. Celle-ci dépasse aujourd’hui les 200 W. Et franchira le cap des 300 W en 2021. Or, plus la puissance augmente, plus il faut évacuer la chaleur des processeurs pour les maintenir dans leur plage de température de fonctionnement optimale. En général, sur les processeurs de la génération actuelle, lorsque la température de jonction du processeur interne dépasse 80 degrés, le silicium des puces commence à se décomposer.
«Intéressons-nous à ces composants et à la quantité d’énergie dont ils ont besoin, invite Rick Koopman. Quand on a un serveur doté de deux processeurs de 300 W, quatre accélérateurs qui utilisent jusqu’à 500 W chacun, plus la mémoire, les lecteurs et les adaptateurs réseau, on arrive à plus de 3 000 W par serveur. Et il y a trente-six serveurs de ce type dans un rack de calcul 42U standard de 19 pouces…»
En d’autres termes, tout s’additionne. Une machine à laver classique nécessite 500 W. Autrement dit, un rack de calcul comme celui de cet exemple utilise la même puissance que 210 machines à laver qui fonctionneraient toutes en même temps. Dès lors, comment réduire les coûts énergétiques et augmenter l’efficacité opérationnelle lorsque les besoins augmentent ?
De nouvelles pistes, des solutions durables
Vu l’augmentation de la demande de puissance, le problème s’aggrave. Une nouvelle solution était donc indispensable. Il faut se débarrasser de la chaleur produite, mais la méthode éprouvée (ventilateurs et air) ne suffisait plus pour évacuer efficacement la chaleur dégagée par les serveurs.
«La méthode à l’ancienne consiste à refroidir la salle du centre de données et à utiliser des ventilateurs pour évacuer l’air chaud», explique Rick Koopman. D’où le bruit. Mais le refroidissement par air est loin d’être efficace pour les solutions HPC actuelles et futures. Il n’est même pas réalisable dans la mesure où les solutions HPC utilisent des gammes de matériel de plus en plus denses.
«Nous arrivons à un point où le refroidissement par air n’est plus envisageable, assure Rick Koopman. C’est possible jusqu’à environ 32-36 kilowatts (kW) maximum avec l’aide d’échangeurs de chaleur à porte arrière. Au-delà, l’air n’est pas efficace. Or, avec 36 nœuds sur un rack de calcul standard, chaque nœud consommant jusqu’à 3 000 W, on arrive à des racks qui nécessitent plus de 90 kW pour la connectivité électrique et le refroidissement. À ce niveau, il est impossible d’évacuer l’air suffisamment vite. Il faudrait un ouragan pour le déplacer.»
L’eau : quatre fois plus d’énergie que l’air
C’est là qu’intervient le concept de refroidissement à l’eau chaude : l’idée consiste à injecter de l’eau qui nous semble chaude, mais qui, à 45 à 50 °C, est toujours plus froide que celle de processeurs qui fonctionnent à plein régime. Le LRZ est donc en mesure d’évacuer, de manière propre et silencieuse, environ 90 % de l’énergie thermique des nœuds du SD650. Une véritable prouesse !
Lenovo a introduit le refroidissement à l’eau chaude pour la première fois à grande échelle en 2012. Et les avantages par rapport au refroidissement à l’air sont multiples. La même quantité d’eau stocke quatre fois plus d’énergie que l’air à une température donnée. Enfin, il est possible de mettre l’eau en contact direct avec tous les éléments qui doivent être refroidis. Ce qui permet de mieux cibler le processus. «Le transfert de chaleur à l’eau est tout simplement beaucoup plus efficace», note encore Rick Koopman.
Réutiliser l’eau au centre de données… ou à la piscine !
Comme l’eau est également contenue dans un système de tuyaux, elle peut facilement être réutilisée à l’infini. Selon l’emplacement du centre de données et la température extérieure, il suffit de la faire passer dans un échangeur de chaleur situé sur le toit du centre de données pour que l’excédent de chaleur du matériel puisse être évacué par rayonnement.
Enfin, l’eau chaude peut être utilisée d’autres manières. Pour chauffer l’eau des piscines ou les serres agricoles dans les environs, par exemple. Elle peut même être utilisée au sein du LRZ pour le chauffage du campus. Le tout en plus des économies d’énergie et des avantages écologiques qui vont de pair avec une facture d’électricité réduite.
Une approche en trois volets
Il ne s’agit là que d’un des éléments de la technologie de refroidissement liquide Neptune de Lenovo. L’efficacité énergétique des centres de données est abordée de trois manières. Un : refroidissement à l’eau chaude. Deux : optimisation des logiciels (qui a permis d’économiser 10 % d’énergie supplémentaires en bridant le matériel lorsque c’était nécessaire). Et trois : amélioration des infrastructures.
Ce dernier rôle est peut-être le plus remarquable du point de vue de la durabilité. Pour le SuperMUC NG du LRZ, Lenovo a déployé la technologie de refroidissement par adsorption pour générer efficacement de l’eau froide afin de refroidir les racks de stockage et de réseau à partir d’eau chaude. «C’est, grosso modo, le principe d’un réfrigérateur, illustre Rick Koopman. Il refroidit une deuxième boucle, celle qui fournit l’eau froide pour refroidir les solutions de stockage et de réseau.»
Bientôt une solution standard ?
Il faut moins de refroidisseurs pour créer cette eau froide, et ça compte à l’échelle d’un supercalculateur. Enfin, tout aussi important : comme tous les centres de données gagneront en puissance, ces techniques pourront, à l’avenir, être appliquées à d’autres niveaux du secteur informatique.
«Si l’efficacité globale du centre de données est améliorée, il pourrait s’agir d’une solution standard pour de nombreux grands centres de données. Une qui permettrait de réduire le nombre de refroidisseurs actuellement nécessaires pour les refroidir», ajoute Rick Koopman.
Le besoin croissant d’énergie et de refroidissement va poser problème à l’ensemble du secteur informatique et pas uniquement dans le domaine des supercalculateurs, estime Lenovo. «La puissance des processeurs, des accélérateurs et des autres composants intégrés dans les serveurs augmente. Chaque centre de données sera confronté au problème.»
Et quand ce sera le cas, Lenovo aura une solution toute prête à proposer.
Ces articles parle de "Data Center"
Infrastructure, Servers, Network, Storage