search
close-icon
数据中心
PlatformDIGITAL®
合作伙伴
专业知识和资源
关于我们
Language
登录
banner
文章

创新传承:引领先进冷却技术,迎接 AI 和 HPC 时代

2023 年回顾与 2024 年展望

作者:Digital Realty 首席技术官 Chris Sharp

年底是回顾过去、总结成就和反思教训的好时机,也是规划未来如何基于过去再接再厉的好时机。

人工智能 (AI) 和高性能计算 (HPC) 已成为创新和业务转型的关键机会领域。

IT 领导者面临的挑战是利用合适的 IT 基础设施来支持这些高密度工作负载,并且越来越多的社区正在讨论液体冷却等先进冷却技术。

虽然部署于数据中心的直接液体冷却 (DLC) 比以往任何时候都多,但其实自 2015 年以来,Digital Realty 一直在其数据中心设计中部署直接液体冷却。而且液冷并不适合每种高密度人工智能或高性能计算工作负载。

在这篇文章中,我将介绍 AI 和 HPC 等高密度工作负载的数据中心冷却需求的基础知识,以及 Digital Realty 的创新传统如何助力我们支持对各种先进冷却技术(包括液体冷却)的加速需求。

我还将分享创新历程中的各种案例,表明实现创新需要正确的战略和合适的合作伙伴,并非“万金油”。

高密度工作负载的冷却需求

AI 或 HPC 部署的密度决定了其独特的冷却需求。

AI 和 HPC 对功率密度的要求可能是其他数据中心用例的 5-10 倍。传统工作负载的功率密度需求通常为每个机架 5-8 kW。

2024 年,某些计算硬件的功率密度可能会超过 100 千瓦/机架,而在未来几年,数据中心的峰值密度可能会达到 150 千瓦/机架。

传统的工作负载密度可以风冷,但是从广义上讲,大多数 AI 和 HPC 工作流程都需要专门冷却,例如直接液体冷却 (DLC)、空气辅助液体冷却 (AALC) 或后门热交换器。

并非所有 AI 和 HPC 工作负载都需要液体冷却

对液体冷却的要求因硬件供应商、硬件本身和工作负载类型而异。液体冷却并非适合所有硬件或所有情况。

即使在 AI 时代,也并非每个机架都会消耗 100 kW 的电力,甚至可能无需专门的先进冷却系统。

例如,推理部署的功耗要求往往低于训练部署,而且可以使用传统的空气冷却技术。机器学习需要的资源较少,而深度学习和生成式 AI 由于其复杂性,需要庞大的环境。

IT 领导者必须明白,不同的 AI 和 HPC 工作负载有不同的冷却需求,而且并非每个数据中心合作伙伴都具备支持该技术的专业知识或基础设施能力。

每次部署的要求都不尽相同,因此有必要协同合作伙伴定制解决方案,而非依赖“一刀切”方法。正因如此,Digital Realty 深厚的数据中心设计经验与先进的冷却技术能够为客户带来改变。

创新战略

Digital Realty 的全球数据中心平台 PlatformDIGITAL® 已入住许多突破性 AI 和 HPC 工作负载。

为了实现创新,一些关键战略不仅能帮助我们跟上技术发展的步伐,还能推动我们领先一步。

支持 AI 和 HPC 工作流程的 IT 策略必须满足下列条件:

  • 敏捷性
  • 扩展性
  • 可持续增长

这些来自我们十年创新历程的案例研究凸显了这些战略的实际应用,还展示了我们的专业知识和创新战略如何帮助我们确定适合这种情况的正确解决方案,而不是依赖一刀切的方法。

创新案例研究

实现扩展性:具有液体冷却功能的高容量交易引擎

2015 年对 Digital Realty 来说是变革性的一年,也是我加入公司的第一年。我们启动一项大型项目,为一家专门从事算法高频交易的全球金融服务公司建立基础。

该项目的一个重要部分是从传统的空气冷却转为先进的液体冷却,甚至冷却到芯片级别,支持高性能计算集群。这一工程壮举不仅提高了冷却系统的效率,还表明我们能够实现技术扩展,在客户的部署增加到近 6 兆瓦时继续为其提供支持。

我们知道,投资新一代液体冷却技术将不仅能满足客户眼前的需求,更能帮助客户打造注重长期可扩展性和可持续性的能力。

实现可持续增长:搭配适应性设计的超级计算

最近,我们帮助一家欧洲客户开发了一个复杂的超级计算机环境,支持混合环境中每个机架高达 70 千瓦的功率。客户需要快速部署,同时要遵守新的可持续发展法规。

等待 3-5 年来建造新的数据中心显然不可行,这就是为什么我们改造现有设施的能力可以让客户更快地启动和运行。依托我们在 2013 年建造的节能设施,对其进行小规模变更,就能够满足客户对高功率密度和连接的严格要求。这使得部署速度提高了 400%。1

客户预计改用液体冷却后,能效将提高 30%。1此外,Digital Realty 的含水层热能储存 (ATES) 冷却系统和完全可再生能源能帮助客户实现当地可持续发展法规设定的碳排放目标。

我们开发改造设计的能力彰显了我们对尖端和敏捷设计的承诺,以实现可持续和及时的增长。我们的设计原则确保我们的基础设施不仅能满足当前的需求,还能满足未来几十年的要求。

实现敏捷性:灵活、面向未来的生成式 AI 部署

目前我们在生成式人工智能 (GenAI) 的发展中发挥着关键作用。一位客户要将超过 30,000 个最先进的 GPU 集成到一个大型平台中。

为了实现高级计算性能,部署要求每个 GPU 都连接在单个计算集群中。客户需要数据中心平台提供商助力快速部署,开始从 GPU 投资中获得价值。考虑到他们的专业设计要求,这项任务具挑战性。

我们的投资策略旨在预测未来的需求,因此我们能够为客户提供外壳和设计完备的设施。依托敏捷模块化设计方法,我们能够解决复杂的设计难题,同时保留 99% 的原始设计,加快建设启动。

我们的敏捷方法将使他们能够在 12 个月内完成部署,如果是定制构建则需要 36 个月。1客户的需求正在迅速变化,满足客户需求的技术和解决方案也在迅速变化——这就是为什么敏捷性必须成为实现创新的核心战略。

尽管这是高级 AI 工作负载的定义,但直接液体冷却并不是冷却的最佳选择。这个例子很好地说明为什么一刀切的高密度工作负载冷却方法并不奏效。

超越基础设施:培养创新文化

执行创新战略的另一个关键因素是团队。所有 IT 领导者都需要明白,我们的成就不仅与基础设施有关,还与我们培养的创新文化有关。

在 Digital Realty,才华横溢的团队带来的创新和工程传统,让我们作为数据中心领域的开拓者斩获多个奖项

创新文化让 Digital Realty 与客户保持一致,确保合作伙伴放心地与 Digital Realty 一起成长。

未来愿景

作为 Digital Realty 的首席技术官,我的职责是了解客户的技术需求,并确保 Digital Realty 能够现在和未来都能满足客户需求。

展望未来,我们将继续致力于参与并积极塑造技术领域。我们的使命是通过实现敏捷性、规模化和可持续增长来支持客户的创新。

可持续发展对我们来说尤为重要。我们持续扩大零碳和可再生能源的覆盖范围,以跟上客户需求的步伐:我们签订了超过 1 吉瓦的太阳能和风能合同;我们已经开始使用替代燃料二次电源解决方案,以进一步减少数据中心的生命周期碳足迹。

我们将专注于及时应用最好的技术来满足客户需求,不会全盘部署现状,迫使未来的客户接受昨天的限制。正是凭借这种方法,Digital Realty 才能为本篇文章中的案例以及全球各地各种其他客户需求提供服务。

适应能力、创新精神和丰富传统使我们在不断发展的技术世界中独树一帜,持久发展。

培养创新传统并非易事,但我们在 Digital Realty 认识到:当忠于我们的价值观并专注于如何最好地满足客户的需求时,我们总是朝着正确的方向前进。

加入 Digital Realty,我们将继续定义科技的未来。保持创新,联系我们,让我们以一种实现组织转型的方式部署 AI 和 HPC。

了解更多关于 AI 就绪型数据中心基础设施:

1与部署和连接 PlatformDIGITAL® 之前的基础设施相比,或与当时其他解决方案相比,客户的预计结果。

Tags