AI 时代的数据中心设计:AI 与传统基础设施的整合
Digital Realty 首席技术官 Chris Sharp
这是我们关于 AI 和 AI 就绪型数据中心基础设施的 3 部分博客系列的第 3 部分。
- 阅读第 1 部分: 发挥 AI 潜力,携手 Digital Realty 实现变革
- 阅读第 2 部分: 数据中心在 AI 时代过时了吗?我们不会坐视不管
- 继续阅读第 3 部分
在人工智能 (AI) 时代,企业如何评估现有数据中心设计能否充分利用运行 AI 所需的现代要求?IT 领导者在制定 AI 战略和评估基础设施状况时,需要考虑一些重要因素。
本博客探讨如下内容:
- 什么是传统 IT 基础设施?
- 如何将新的 AI 设备与现有基础设施集成。
- 评估数据中心设计和传统基础设施。
- 数据中心改造的艺术。
尽管 AI 工作流程围绕电源和冷却需求提出新的挑战和问题,但 IT 领导者应该根据新兴和不断变化的现代需求,评估数据中心的设计情况。
什么是传统 IT 基础设施?
识别传统基础设施部分靠直觉、部分靠经验。从 IT 设备的角度来看,我们可以认为,任何不处于最前沿的设备都是传统设备。但事实往往并非如此。
世界上许多 IT 系统都不在最新、最好的硬件上运行。由于从超大规模云到小型企业都有典型的预算、支出和设备更新周期,这种情况将持续存在。
即使在 AI 时代,也不是每个机架都将消耗 100 kW 的功率或者需要液体冷却。装满网络、内存聚合或存储设备的机架可能仍低于 15 kW,并且依赖空气冷却。
仅凭功率就将 IT 基础设施划分为传统或非传统,变得十分具有挑战性。各类行业标准表明,新一代中央处理器 (CPU)、图形处理器 (GPU)、网络设备和其他 IT 基础设施资产的速度明显快于前代产品,但仅凭这一点往往不足以将现有设备认定为传统基础设施。
最好的检验方法是确定当前的基础设施是否以新一代设备不会的方式阻碍企业的开发和运营活动。
如果有,则应归类为传统基础设施。
AI 与现有 IT 基础设施整合
就 IT 设备而言,我们可以认为,整合 AI 要么是利用现有服务器及其支持设备来执行新的 AI 功能,要么是用新的 AI 专用设备来增强部署的硬件,从而执行新的 AI 功能。
举例说明第二种整合方式:利用现有的基于 CPU 的服务器机架,增加两台新的基于 GPU 的服务器,以提供更多并行计算能力,向企业内部用户推出聊天机器人。
这似乎比适应新的 AI 高密度部署更容易,但也带来了三大挑战:
- 在原本机架密度较低的通道中添加基于 GPU 的服务器可能会产生热点,而大楼的冷却系统在设计之初并未考虑这一点。
- 这可能会造成整个设施的电力负荷不均衡,导致需要重新分配备用电力资源。
- 这可能会导致网络拥堵,因为新设备会使每个机架传输的数据量成倍增加。
这些因素可能会给数据中心带来新的压力,数据中心应该被视为 IT 堆栈本身的一部分。
评估数据中心设计和传统基础设施
数据中心与部署在其中的服务器一样,都是 IT 基础设施的一部分,因此我们应该考虑如何将传统基础设施的概念应用到数据中心设施中。
从技术角度来看,数据中心行业并非新生儿。仅 Digital Realty 就在全球支持约 2.4 吉瓦的客户 IT 设备,这也并非一蹴而就。
自 2004 年成立以来,我们每年都会逐步增加全球数据中心的容量,而且这些设施中的所有客户设备都不会消失。许多企业每三到五年就会更换所有服务器,但有些服务器可能会部署长达八年。设备更换分阶段完成,以便企业的应用在不发生实际停机的情况下运行。
这意味着数据中心始终处于开启状态。数据中心运营商不能简单地将所有客户的 IT 设备取出,对设施进行大规模升级,然后将其全部放回原处。随着时间的推移,数据中心的客户设备组合通常会包含一些传统设备和一些非传统设备。
此外,随着数据中心设施本身的老化,其自身的一些特性(例如气流设计、地板结构和对液体冷却的支持)可能并不适合客户想要部署的设备。
例如,许多数据中心设施都采用高架地板设计——AI 设备不仅耗电多而且重量大,因此需要更高的机架密度。在某些情况下,机架可能需要坚固的混凝土地板。
这意味着对于某些用例,某些数据中心可以符合我们对传统基础设施的定义。
但是,与跨机架的服务器或 IT 设备相比,设计优良的数据中心的升级灵活性更高。根据运营商在设计、改造和模块化方面的工作,数据中心可以运行 15 至 20 年。
AI 促使机架密度和其他要求发生了翻天覆地的变化。通常,数据中心运营商可以升级部分设施,以满足这些新需求。
数据中心设计改造的艺术
这个过程被称为改造,而改造的艺术是数据中心运营商如何有效地为当前和未来的服务器和其他 IT 基础设施设计数据中心的关键因素。想象某个旧数据中心设施最初的设计是每个机架平均耗电 10 kW。随着 AI 的出现,该设施可能需要达到每个机架 100 kW 的要求,但无需完全关停并重新设计。
灵活地支持数据中心随时间推移而发生的这类变化,是我们设计和运营数据中心的关键部分。例如:
- 如果不再需要架空地板,我们可以将其填充。
- 如果需要液体冷却,我们可以将管道从新的冷水机组和储液罐连接到机架。
- 如果需要新的网络功能,我们可以引入额外的连接,并优化设施内部的所有网络资产。
如今,数据中心与 IT 堆栈中的其他部分一样,具有灵活性、模块化和高度调整性,可根据客户的需求不断发展。在数据中心支持 AI 的要求无疑具有挑战性,我们分析全球所有数据中心,随时了解如何改进我们的设计和运营,适应不断发展的 AI要求。
在评估您的 AI 策略时,请咨询我们的专家团队,详细了解 Digital Realty 及其 AI 就绪型数据中心。
Digital Realty CTO Chris Sharp,“Digital Realty模块化设计方法的优势“.
如今,数据中心与 IT 堆栈中的其他部分一样,具有灵活性、模块化和高度调整性,可根据客户的需求不断发展。在数据中心支持 AI 的要求无疑具有挑战性,我们分析全球所有的数据中心,随时了解如何改进我们的设计和运营,适应不断发展的 AI 要求。
通过面向未来的 AI 就绪基础设施增强您的 IT 战略。下载我们的“面向 IT 领导者的 AI”白皮书。
这是我们关于 AI 和 AI 就绪型数据中心基础设施的 3 部分博客系列的第 3 部分。
- 第 1 部分: 发挥 AI 潜力,携手 Digital Realty 实现变革
- 第 2 部分: 数据中心在 AI 时代过时了吗?我们不会坐视不管
- 第 3 部分:AI 时代的数据中心设计:AI 与传统基础设施的整合