关于
洞察
为数据室中的 AI 和加速计算提供动力和冷却

为数据室中的 AI 和加速计算提供动力和冷却

2024年5月13日

博客帖子

为数据室中的 AI 和加速计算提供动力和冷却，人工智能在这里，它在这里留下来。NVIDIA 创始人兼首席执行官黄仁勋表示，“每个行业都将成为一个技术行业”。 AI 的用例几乎是无限的，从医学突破到高精度欺诈预防。人工智能已经在改变我们的生活，就像它正在改变每一个行业一样。它也开始从根本上改变数据中心基础设施。

通过 Vertiv 先进的供电和制冷技术，提高数据室中 AI 和加速计算的效率。人工智能（AI）在这里，它在这里留下来。NVIDIA 创始人兼首席执行官黄仁勋表示：“每个行业都将成为一个技术行业。” AI 的用例几乎是无限的，从医学突破到高精度欺诈预防。人工智能已经在改变我们的生活，就像它正在改变每一个行业一样。它也开始从根本上改变数据中心基础设施。用于运行 5-10 千瓦（kW）工作负载的典型 IT 机架和运行 20 千瓦以上负载的机架被认为是高密度的，在非常具体的应用之外，这种现象很少见，而且覆盖范围很窄。IT 正在利用 GPU 加速，以支持 AI 模型的计算需求，而这些 AI 芯片在相同空间内所需的功率和制冷容量1大约是传统服务器的五倍。Mark Zuckerberg 宣布，到 2024 年底，Meta 将花费数十亿美元部署 NVIDIA 的 350，000 块 H100 GPU。机架密度为每机架 40 kW，现在处于促进 AI 部署所需的较低端，机架密度超过每机架 100 kW，在不久的将来变得司空见惯且大规模。

向高密度过渡

向加速计算的过渡不会在一夜之间发生。数据中心和服务器机房设计人员必须寻找使电力和冷却基础设施面向未来的方法，并考虑其工作负载的未来增长。每个机架获得足够的电源需要从电网升级到机架。具体来说，在空白处，这可能意味着高安培总线和高密度机架式PDU。为了抑制运行 AI 工作负载的硬件产生的大量热量，两种[g3]液体冷却技术[/g3]正在成为主要选择：

直接芯片液体冷却：冷板位于发热组件（通常是 CPU 和 GPU 等芯片）的顶部，以散热。泵送的单相或两相流体从冷板中吸出热量，将其从数据中心送出，与芯片交换热量，而不是流体。这可以去除机架中设备产生的约 70-75% 的热量，留下空气冷却系统必须去除的 25-30%。
后门热交换器：无源或有源热交换器用热交换盘管代替IT机架的后门，流体通过热交换盘管吸收机架中产生的热量。这些系统通常与其他冷却系统相结合，作为保持室内中性的策略或过渡设计，开始液体冷却之旅。

虽然直接芯片式液体冷却的冷却容量比空气的冷却容量要高得多，但重要的是要注意，冷板仍无法捕获过多的热量。这种热量将被排入数据室，除非通过后门热交换器或室内空气冷却等其他方式容纳和去除。有关数据中心液冷解决方案的更多详细信息，请查看我们的白皮书。

适用于改造和新构建的 AI 入门套件

电源和冷却正在成为数据室中IT解决方案设计不可分割的一部分，模糊了IT和设施团队之间的界限。在设计、部署和运营方面，这增加了高度的复杂性。

合作伙伴关系和全解决方案专业知识是向更高密度平稳过渡的首要要求。为了简化向高密度的转变，Vertiv 推出了一系列优化设计，包括电源和冷却技术，能够在各种部署配置中支持每个机架高达 100 kW的工作负载。

设计总结	机架	密度/机架	绿色/棕色字段	散热
设计总结	机架	密度/机架	绿色/棕色字段	从服务器	从房间
训练模型试点，大规模边缘推理
小型 HPC 最小改造	1	70 千瓦	棕色区域	水/乙二醇	空气
冷冻水系统的小型 HPC 改造	1	100 千瓦	棕色区域	水/乙二醇	水/乙二醇
企业集中培训，数据中心AI角
中型 HPC 成本优化改造	3	100 千瓦	棕色区域	水/乙二醇	制冷剂
中型 HPC，具有更高的热捕获能力	4	100 千瓦	棕色区域绿色字段	水/乙二醇＋空气	水/乙二醇
中型 HPC 实用改造，适用于风冷机房	5	40 千瓦	棕色区域绿色字段	空气	制冷剂
中型 HPC	5	100 千瓦	棕色区域绿色字段	水/乙二醇	水/乙二醇
大型 AI 工厂
大型 HPC 保持房间中立性	12	100 千瓦	棕色区域绿色字段	水/乙二醇＋空气	水/乙二醇
大规模 HPC 建设	14	100 千瓦	棕色区域绿色字段	水/乙二醇	水/乙二醇

这些设计为系统集成商、托管提供商、云服务提供商或企业用户提供了多条路径，以实现未来的数据中心。每个特定设施都有细微差别，机架数量和机架密度由 IT 设备选择决定。因此，这一系列设计提供了一种直观的方式，可以明确地缩小到基础设计，并完全根据部署需求进行定制。

在改造或重新利用 AI 的现有环境时，我们优化的设计通过尽可能利用可用的冷却基础设施和散热功能，帮助最大限度地减少对现有工作负载的干扰。例如，我们可以将直接芯片式液体冷却与后门热交换器集成，以维持室内中性冷却解决方案。在这种情况下，后门热交换器防止多余的热量逸出到房间中。对于希望添加液冷设备而不对场地本身进行任何修改的空气冷却设施，我们提供液-空设计选项。同样的策略可以部署在单个机架中、连续部署或在大型 HPC 部署中大规模部署。对于多机架设计，我们还包括高电流母线槽和高密度机架式 PDU，以便为每个机架分配电源。

这些选项与一系列不同的散热选项兼容，可与液体冷却搭配使用。这就建立了一条通向高密度液体冷却的干净且经济高效的过渡路径，而不会中断数据室中的其他工作负载。查看我们的 AI 数据室解决方案，了解更多信息。

虽然许多设施不是为高密度系统设计的，但 Vertiv 在帮助客户制定部署计划以顺利过渡到高密度 AI 和 HPC 方面拥有丰富的经验。

联系我们

Anton Chuchkov

Anton Chuchkov 是 Vertiv IT 解决方案团队的产品经理，专注于高密度解决方案，包括支持 AI 应用的基础设施。他负责将最新的行业技术引入数据中心市场垂直市场。他在芯片、主板、服务器和系统层面的产品管理和应用工程师方面拥有十多年的经验，能够在边缘实现对时间敏感的 AI 推理应用。Anton 拥有石溪大学电气工程学士学位。

布拉德·威尔逊

Brad Wilson 是 Vertiv 的技术副总裁，负责管理首席技术官办公室。在此职位上，他专注于未来 3-5 年将影响数据中心解决方案的趋势和技术。Brad 于 2018 年加入 Vertiv，担任全球机架配电单元产品和工程团队的副总裁。在加入 Vertiv 之前，Brad 曾担任 Geist 的总裁，Geist 是一家专门从事机架配电和相关技术的私营公司，Vertiv 于 2018 年 2 月收购了该公司。在他的职业生涯中，Brad 还曾担任运营经理、工程经理、首席技术总监和执行副总裁。在过去的30年里，他的工作重点是设计，开发和制造机架配电以及用于关键环境和数据中心的相关监控和控制系统。Brad 拥有内布拉斯加州大学工程学理学学士学位。

¹管理层估计：基于制造商规格表的标准 42U 机架中 5 台 Nvidia DGX H100 服务器和 21 台 Dell PowerStore 500T 和 9200T 服务器的机架级功耗和热量输出比较为数据室中的 AI 和加速计算提供动力和冷却借助 Vertiv 先进的供电和制冷技术，扩展和验证您在 AI 时代的关键基础设施。ai 基础设施，液体冷却，加速计算，高性能计算，直接芯片式液体冷却，后门热交换器，机架密度

为数据室中的 AI 和加速计算提供动力和冷却

向高密度过渡

适用于改造和新构建的 AI 入门套件

登录

选择您的本国语言