Comment le management thermique évolue à l’ère des puces kilowatt

À mesure que la loi de Moore ralentissait, les puces, en particulier celles utilisées dans l’IA et le calcul haute performance (HPC), ont progressivement chauffé. En 2023, nous avons vu l’arrivée d’accélérateurs dans la gamme de kilowatts avec l’arrivée des superpuces GH200 de Nvidia. Nous savions depuis longtemps que ces puces seraient chaudes – Nvidia tease la puce CPU-GPU depuis près de deux ans. Ce que nous ne savions pas jusqu’à récemment, c’est comment les OEM et les constructeurs de systèmes réagiraient à une telle densité de puissance. La plupart des systèmes seront-ils refroidis par eau? Ou la plupart des systèmes seront-ils refroidis par air? Combien d’entre eux essaieraient-ils de fourrer dans une seule boîte, et combien serait grande la boîte? Maintenant que les premiers systèmes basés sur le GH200 font leur chemin vers le marché, il est devenu évident que le facteur de forme est très dicté par la densité de puissance que par autre chose. En d’autres termes, il s’agit de la surface disponible pour dissiper la chaleur. Fouillez les systèmes disponibles aujourd’hui chez Supermicro, Gigabyte, QCT, Pegatron, HPE et d’autres et vous remarquerez rapidement une tendance. Jusqu’à environ 500 W par unité de rack (RU) – 1 kW dans le cas du MGX ARS-111GL-NHR de Supermicro -, ces systèmes sont largement refroidis par air. Bien qu’il soit chaud, c’est encore une charge thermique gérable, soit environ 21-24 kW par rack. C’est bien dans les capacités d’alimentation et de gestion thermique des datacenters modernes, en particulier ceux utilisant des échangeurs de chaleur arrière. Cependant, cela change lorsque les constructeurs de systèmes commencent à empiler plus d’un kilowatt d’accélérateurs dans chaque châssis. À ce stade, la plupart des systèmes OEM que nous avons examinés ont basculé vers un refroidissement par eau direct. Par exemple, le H263-V11 de Gigabyte offre jusqu’à quatre nœuds GH200 dans un seul châssis 2U.

Share the Post: