7月31日消息,集邦咨询发布报告称,随着AI服务器算力、功耗同步与日俱增,尤其是NVIDIA将在年底推出的下一代Blackwell平台功耗急剧增加,液冷散热方案将逐渐普及,今年底的渗透率可达10%。
根据调查,NVIDIA Blackwell要到2025年才会正式大规模放量,取代现在的Hopper平台,成为高端主力,占整体高端产品的近83%。
Blackwell B200单颗芯片的功耗就高达1000W,一颗Grace CPU和两颗Blackwell GPU组成的超级芯片GB200更是恐怖的2700W。
回顾历史,Hopper家族的H100、H200 GPU功耗都是700W,H20只需要400W,Grace+Hopper超级芯片则是1000W。
NVIDIA HGX服务器每台预装8颗GPU,NVL36、NVL72服务器每台36颗、72颗GPU,整体功耗将分别达到70千瓦、140千瓦。
据悉,NVL36服务器2024年底先上市,初期以风冷、液冷并行方案为主;NVL72 2025年跟进,直接优先上液冷,整体设计和散热都复杂得多。
NVIDIA预计,GB200折算NVL36的出货量在2025年预计可达6万台,Blackwell GPU的总出货量有望达到210-220万颗。
服务器液冷主要分为水冷板(Cold Plate)、冷却分配系统(Coolant Distribution Unit, CDU)、分歧管(Manifold)、快接头(Quick Disconnect, QD)、风扇背门(Rear Door Heat Exchanger, RDHx)等五大零部件。
其中,CDU是最关键的部分,负责在整个系统内调节冷夜的流量,确保温度可控。
针对NVIDIA AI服务器方案,维谛技术(Vertiv)是主力的CDU供应商,奇鋐、双鸿、台达电、CoolIT等也在测试验证。