随着超微半导体公司 (AMD) 挑战 NVIDIA 在 AI 加速器市场的主导地位,半导体行业正在经历一场激烈的竞争。凭借其 Instinct MI300X,AMD 准备打破现状,为 NVIDIA 的 H100 提供经济高效且功能强大的替代品。随着 AI 采用和数据中心扩张的爆炸式增长,对 AI 芯片的需求激增,进一步加剧了这种竞争。
在人工智能芯片技术领域快速发展的背景下, AMD 在挑战 NVIDIA 的主导地位方面取得了显著进展. 虽然 NVIDIA 目前占据了市场的大部分份额, 估计超过80%,AMD 正在稳步发展,尤其是在数据中心领域。这种激增是由于对其 MI300X AI 芯片的强劲需求推动的, 预计销售额 达到了惊人的 40 亿美元,约占 AMD 预期收入的 15%。
在性能方面,NVIDIA 的 H100 芯片因其在 AI 工作负载方面的出色表现而广受认可, 特别是在培训领域。然而,AMD 的 MI300X 在特定的 AI 任务中证明了自己的实力,尤其是推理任务,有人断言它甚至比 NVIDIA 的旗舰产品 H100 表现更好。
在行业合作和采用方面,NVIDIA 与主要云提供商建立了良好的合作关系,并在各个领域享有广泛认可。另一方面, AMD 积极建立合作伙伴关系,例如与 TensorWave 结盟,以扩大其影响力并改进其以 AI 为中心的任务技术。
这两大巨头之间的动态互动为人工智能芯片市场带来了激动人心的未来。我采访了英特尔首席执行官 Darrick Horton, TensorWave,以了解它为何将所有AI鸡蛋都放在了AMD的篮子里。
AMD 的 Instinct MI300X:改变游戏规则的产品?
MI300X 拥有比 H100 更大的内存容量,这使其在特定 AI 任务(尤其是涉及大型语言模型的任务)中具有优势。虽然 H100 通常提供更大的原始计算能力,但 MI300X 在推理任务和更大批量大小方面表现出色。
虽然具体价格尚未公布,但据报道 MI300X 更便宜,性价比更高。不过,NVIDIA 的 CUDA 平台应用范围更广,软件生态系统也更成熟。
Horton 告诉我:“MI300X 的突出特点之一是其卓越的内存架构。MI300X 拥有高达 192GB 的统一 HBM3 内存,性能显著优于 H100,可以直接在加速器上无缝处理更大的模型和数据集。这减少了对片外内存访问的需求,而这可能是 AI 工作负载的瓶颈,从而提高了性能、缓存能力并降低了延迟。”
促使 TensorWave 与 AMD 合作的其他考虑因素包括能源效率和 AMD 的软件生态系统。
Horton 表示:“MI300X 的设计充分考虑了能源效率,能够提供出色的每瓦性能。随着 AI 工作负载的扩大,这一点尤为重要,它使企业能够在不增加能源成本的情况下实现高性能。这种效率是大规模部署的关键因素,因为运营成本可能是一个重大问题。AMD 的 ROCm(Radeon Open Compute)平台不断成熟,为 AI 和 HPC 工作负载提供强大的支持。 ROCm 的开源特性 为开发人员提供了灵活性和优化 MI300X 应用程序的能力,随着 AI 模型变得越来越复杂,这一点变得越来越重要。”
MI300X 的混合架构结合了 CPU 和 GPU 功能,可优化各种工作负载的性能,并高效地跨多个加速器进行扩展。所有这些都描绘出 NVIDIA 的有力替代品。
当然,AMD 和 NVIDIA 在构建大规模 GPU 系统方面采取了截然不同的方法。AMD 倾向于 PCIe 5.0 的开放标准,该标准提供更广泛的兼容性和潜在的更低成本,而 NVIDIA 则依靠其高带宽 NVLink 互连来在某些情况下提高性能,但可能存在可扩展性限制和更高的成本。
实现人工智能普及化的使命
TensorWave 的定价模式似乎旨在使高性能 AI 基础设施的访问民主化,据报道,通过该平台租赁 AMD GPU 的成本较低,有助于让更广泛的组织更容易使用先进的 AI 技术。
Horton 表示:“谈到 GPU 采购,远非简单的一键结账。该流程经常因生产积压而延迟,导致发货时间难以预测。此外,前期成本可能过高。我们已经用数千个 MI300X GPU 构建了数据中心,随时可以部署。但假设您设法获得了硬件。现在,您面临的挑战是构建、管理和维护该硬件以及整个数据中心基础设施。这是一个耗时且成本高昂的过程,并非每个人都有能力处理。有了我们的云服务,这些担忧就消失了。”
虽然 NVIDIA 目前占据主导地位,但 AMD 的 Instinct MI300X 和 TensorWave 的创新方法有望颠覆 AI 加速器市场。
Horton 表示:“NVIDIA 一直是 AI 加速器市场的主导力量,但我们认为是时候做出改变了。我们致力于为市场提供选择权。我们希望构建者摆脱供应商锁定,不再依赖非开源工具,因为非开源工具只能由供应商决定。我们相信选择。我们相信开源选择权。我们相信计算的民主化。当我们围绕 AMD MI300X 加速器构建和关注云时,这些原则是核心。”
TensorWave 认为这一点很重要,因为越来越多的中小型企业和大型企业开始以与大公司相同的方式利用人工智能工具。
Horton 表示:“想想会计师事务所、法律办公室和研究机构。他们拥有大量历史数据。如果他们能够构建从这些数据集中学习的 AI 工具,那么产生积极业务成果的潜力是巨大的。然而,要实现这一点,你需要处理大型数据集(250,000 多个标记),这将需要大量内存和硬件性能。这不仅仅是理论上的——企业目前正在积极研究长上下文解决方案。”
高风险游戏中的大胆赌注
TensorWave 还相信,随着 LLM 达到新的高度,AMD 将成为新的标准,这是其将所有芯片都放在 AMD 上的一大驱动力(此处用二十一点比喻)。
“随着 AI 模型变得越来越大,内存占用越来越大,NVIDIA 的解决方案在性价比方面难以与 MI300X 竞争。以 Meta 的 Llama 3.1 405B 型号为例。该型号可以在不到一个完整的 MI300X 节点(8 个 GPU)上运行,而使用 H100B 则需要大约两个节点。我们坚信 AI 社区已经准备好迎接更好的东西 — 更快、更具成本效益、开源且随时可用。
TensorWave 加倍投资于 AMD,着眼于未来,开发新功能,使计算能力的进一步普及变得民主化。
Horton 表示:“我们正在开发可扩展的缓存机制,以大幅提高处理长上下文的效率。这让用户能够以显著降低的延迟与更大的聊天和文档进行交互,即使在要求最苛刻的 AI 应用程序中也能提供更流畅、响应更快的体验。”
TensorWave 目前处于测试阶段,预计将于 2024 年第四季度向用户推出。
MI300X 的技术优势与 TensorWave 对民主化和成本效益的关注相结合,为寻求高性能 AI 解决方案的企业提供了一个引人注目的替代方案。
为更美好的未来而努力
AMD 与 NVIDIA 之间的“看见、提出、呼唤”无疑将推动整个行业 GPU 技术和 AI 应用的进一步发展。随着对 AI 的需求不断增长,两家公司将在塑造这一变革性技术的未来方面发挥关键作用。
AMD 最终能否超越 NVIDIA 还有待观察。然而,他们在市场上的存在促进了良性竞争和创新,并最终使整个 AI 生态系统受益。争夺 AI 霸主地位的战斗远未结束,全世界都满怀期待地看着这两家科技巨头继续突破可能的界限。