Nvidia 的 Blackwell GPU 面临着影响主要科技客户的过热挑战。下一代处理器难以在装有 72 个 GPU 的服务器机架中有效运行,这引起了 Google、Meta 和 Microsoft 等公司对及时部署的担忧。报告表明,由于这些过热问题,Nvidia 正在多次重新评估其机架设计,这些问题可能会损坏组件并限制 GPU 性能。这些配置的预期功耗为每个机架高达 120kW。
知情人知情 信息 Nvidia 用于人工智能和高性能计算 (HPC) 的 Blackwell GPU 在大容量服务器中过热,影响了依赖这些技术的客户的发布时间表。为了解决这些过热问题带来的复杂问题,Nvidia 已要求其供应商反复修改机架设计。 Nvidia 的一位发言人强调了他们与云服务的协作方法,并将设计变更描述为开发过程的常规部分。
调整设计以解决过热问题
此前,布莱克韦尔工厂产量的延迟被归因于“产量下降”的设计缺陷。这 Blackwell B100 和 B200 GPU 利用台积电的 CoWoS-L 封装技术,该技术集成了两个小芯片,可将数据传输速度提高到高达 10 TB/s。然而,GPU 小芯片和其他组件之间的热膨胀特性不匹配导致变形和系统故障。为了解决这个问题,Nvidia 对 GPU 芯片的金属层和凸块结构进行了修改。
这些改进的成果直到 10 月下旬才进入量产,预计发货日期则推迟到 1 月下旬。这种延迟对于 Nvidia 的客户来说至关重要,例如 谷歌, 元, 和 微软,它们依靠这些 GPU 来增强其最强大的 AI 模型。 Nvidia 此前曾宣称 Blackwell 芯片在响应聊天机器人查询等任务方面比早期型号快了 30 倍。
Nvidia 的 Blackwell 芯片收入预计下一季度将达到 60 亿美元,这突显了尽管供应持续受到限制,但需求仍然很高。英伟达最近超越苹果,成为全球市值最高的公司,市值飙升至 3.482 万亿美元。然而,Blackwell 处理器的持续挫折可能会扰乱主要科技公司所必需的人工智能功能的计划进步。
特色图片来源: 英伟达