ChatGPT 背后的公司 OpenAI 正在加大努力,为其 AI 模型确保可靠且经济高效的计算能力。通过开发定制芯片,OpenAI 旨在减少对 NVIDIA 等外部供应商的依赖,后者的 GPU 在人工智能芯片市场占据主导地位。根据 路透社 OpenAI 与博通 (Broadcom) 合作,并获得了台湾积体电路制造公司 (TSMC) 的制造能力,同时将 AMD 芯片纳入其 Microsoft Azure 设置中。
OpenAI 将与博通和台积电合作打造定制人工智能芯片
OpenAI 开发自己的 AI 芯片的旅程始于组建一个约 20 人的团队,其中包括曾在谷歌张量处理单元 (TPU) 工作的顶级工程师。这个内部芯片团队由 Thomas Norrie 和 Richard Ho 等经验丰富的工程师领导,正在与 Broadcom 密切合作,设计和生产专注于推理工作负载的定制芯片。这些芯片预计将从 2026 年开始由全球最大的半导体代工厂台积电生产。
开发内部芯片的目标有两个:确保高性能芯片的稳定供应,并管理与人工智能工作负载相关的不断上升的成本。虽然目前对训练芯片的需求较高,但行业专家预计,随着更多人工智能应用进入部署阶段,对推理芯片的需求将超过训练芯片。博通在帮助微调芯片设计以实现大规模生产以及提供优化数据移动的组件方面拥有专业知识,使其成为这一雄心勃勃的项目的理想合作伙伴。
OpenAI 此前曾考虑建立自己的芯片代工厂,但由于所需的巨大成本和时间,最终决定放弃这些计划。相反,OpenAI 专注于设计定制芯片,同时依靠台积电进行制造。
整合AMD芯片实现多元化
除了与 Broadcom 的合作之外,OpenAI 还整合了 AMD 的新产品 米300X 芯片集成到其 Microsoft Azure 设置中。 AMD 去年推出了这些芯片,作为其数据中心扩张战略的一部分,旨在抢占目前由 NVIDIA 占据的部分市场份额。 AMD芯片的加入将使OpenAI能够实现芯片供应多元化,减少对单一供应商的依赖,并有助于更有效地管理成本。
AMD 的 MI300X 芯片是其与 NVIDIA 竞争的一部分,NVIDIA 目前在人工智能硬件领域占据超过 80% 的市场份额。 MI300X 芯片旨在支持人工智能工作负载,特别是推理和模型训练。通过在其基础设施中添加 AMD 芯片,OpenAI 希望缓解 NVIDIA GPU 所面临的一些供应限制,因为 NVIDIA GPU 的需求量很大,但也存在短缺问题。
这一战略举措也是对不断上升的计算成本的回应,这已成为 OpenAI 面临的主要挑战。该公司一直在处理硬件、电力和云服务方面的高额费用,预计今年的亏损将达到 50 亿美元。减少对像 NVIDIA 这样一直在提高价格的单一供应商的依赖,可以帮助 OpenAI 更好地管理这些成本,并继续开发其人工智能模型,而不会出现重大延迟或中断。
前方的路
尽管开发定制芯片的计划雄心勃勃,但 OpenAI 仍面临着巨大的挑战。构建内部芯片解决方案需要时间和金钱,第一批定制设计的芯片预计要到 2026 年才会投入生产。这个时间表使 OpenAI 落后于谷歌、微软和亚马逊等一些较大的竞争对手,这些竞争对手已经在开发自己的定制人工智能硬件方面取得了实质性进展。
与博通和台积电的合作代表着向前迈出的重要一步,但也凸显了试图打入芯片市场的公司所面临的困难。制造高性能人工智能芯片需要大量的专业知识、先进的生产设施和大量的投资。台积电作为制造合作伙伴,将在决定该合资企业成功的过程中发挥关键作用。芯片生产的时间表仍可能发生变化,具体取决于设计复杂性和制造能力等因素。
另一个挑战在于人才获取。 OpenAI 对从 NVIDIA 挖角人才持谨慎态度,因为它希望与这家芯片制造商保持良好的关系,特别是因为它的当前一代 AI 模型仍然严重依赖 NVIDIA。 NVIDIA 的 Blackwell 芯片预计对于即将推出的 AI 项目至关重要,而保持积极的关系对于 OpenAI 持续使用这些尖端 GPU 至关重要。
为什么 OpenAI 需要定制芯片
OpenAI 定制芯片计划背后的主要驱动力是成本。训练和部署 GPT-4 等大型人工智能模型需要大量计算能力,这意味着高昂的基础设施费用。 OpenAI 的年度计算成本预计将成为其最大的支出之一,尽管该公司今年产生了 37 亿美元的收入,但预计将亏损 50 亿美元。 OpenAI 希望通过开发自己的芯片来控制这些成本,使其在拥挤的人工智能市场中获得竞争优势。
定制芯片还具有性能优势。通过专门针对 AI 推理需求定制芯片,OpenAI 可以优化性能、提高效率并减少延迟。这对于在 ChatGPT 等产品中提供高质量的实时响应尤其重要。虽然 NVIDIA 的 GPU 功能强大,但定制设计的硬件可以提供更有针对性的优化,从而有可能显着提高性能和成本效率。
混合内部和外部芯片解决方案的方法为 OpenAI 扩展其基础设施提供了更大的灵活性。通过与 Broadcom 合作进行定制设计,同时整合 AMD 和 NVIDIA GPU,OpenAI 正在将自己定位为更好地应对高需求和供应链限制的挑战。这种多元化的方法将帮助公司适应不断变化的市场条件,并确保拥有继续突破人工智能界限所需的计算资源。
特色图片来源: 安德鲁·尼尔/Unsplash