Amazon.com Inc. 的云部门 Amazon Web Services (AWS) 正在推出旨在提高数据中心效率的新设计,以缓解对电网日益增长的需求。这些更新包括先进的冷却技术、备用发电机的替代燃料选项以及改进的服务器机架布局。其中一些组件已经实施,随着新数据中心的开放,其他功能也将首次亮相。这一举措响应了为按需计算服务提供动力的服务器群的能源密集型特性。
AWS 推出提高数据中心效率的新设计
AWS计划今年投资约750亿美元的资本支出,主要用于服务器和芯片升级,包括冷却系统。这项投资体现了 AWS 在增强人工智能基础设施的同时解决能源使用问题的承诺。在即将举行的 re:Invent 大会上,该公司预计将推出其最新的定制设计芯片,包括将与 Nvidia 现有产品竞争的先进人工智能产品。
人工智能服务器的新冷却系统
最重要的更新之一是 AWS 人工智能服务器转向液体冷却系统。这项技术对于保持 Nvidia 和 AWS 自主研发的 Trainium 设备的高性能芯片的最佳性能至关重要。 AWS 强调液体冷却集成是灵活的,允许在单个系统中同时进行空气冷却和液体冷却。这种多模式设计旨在最大限度地提高各种工作负载的性能和效率,满足人工智能应用的独特需求。
此外,AWS 正在为其服务器寻求一种简化的配电和机械设计方法。该策略可将基础设施可用性提高至 99.9999%,从而将易受电气干扰的服务器机架数量显着减少高达 89%。这种改进可能是通过最大限度地减少从交流电源到直流电源的转换来实现的,这种转换通常会导致能量损失。
这些新的冷却系统和简化的设计旨在支持未来两年机架功率密度显着增加六倍,并预计此后还会进一步增长。通过将人工智能纳入其运营策略,AWS 正在利用预测分析来优化服务器机架定位,从而进一步减少因电力利用不足而造成的能源浪费。
Nvidia 超大规模和高性能计算副总裁伊恩·巴克 (Ian Buck) 承认,先进的液体冷却解决方案将有效冷却人工智能基础设施,同时最大限度地减少能源消耗。两家公司正在密切合作,专门针对液体冷却应用改进机架设计,预计这将使共同客户受益匪浅。
AWS 基础设施服务副总裁 Prasad Kalyanaraman 指出 这些改进是提高能源效率和模块化的关键一步。
Kalyanaraman 表示:“AWS 继续不懈地创新其基础设施,为全球客户构建最具性能、弹性、安全和可持续的云。” “这些数据中心功能代表着在提高能源效率和灵活支持新兴工作负载方面向前迈出的重要一步。但更令人兴奋的是,它们采用模块化设计,因此我们能够改造现有的液体冷却和能源效率基础设施,为生成型人工智能应用提供动力并降低碳足迹。”
特色图片来源: 亚马逊