NVIDIA在2026年之前部署基于轻型的GPU互连

Nvidia是规划到2026年，其人工智能GPU之间实施基于光的通信，利用硅光子学在其下一代机架AI平台中与共包装光学元件（CPO）互连，以减少功耗以实现更高的传输速度。

在热芯片会议上，NVIDIA提供了有关其即将到来的Quantum-X和Spectrum-X光子学互连解决方案的进一步详细信息，概述了他们在2026年的预期到达。这些解决方案代表了朝着光学互连的重大举措，以管理大型AI GPU Clusters中数据传输需求不断增长的需求。

NVIDIA的发育时间轴有望紧密地反映TSMC的Coupe（紧凑型普遍光子发动机）路线图，该路线图分为三个不同的阶段。初始阶段涉及为OSFP连接器设计的光学引擎，促进数据传输为1.6 TB/s，同时降低功耗。第二阶段过渡到包含共包装光学元件的Cowos包装，从而在主板级别达到了6.4 TB/S的数据传输速率。第三阶段的重点是在处理器软件包内实现12.8 tb/s，目的是进一步降低功率使用和延迟。

CPO的必要性源于与大规模AI集群中数千个GPU相互联系的挑战，要求它们作为统一系统运行。这种体系结构需要对传统的网络配置进行修改。具体而言，将开关转移到行末端，而不是每个机架都有自己的层-1（顶部）开关，而是由短铜电缆连接。这种配置建立了跨越多个机架的一致，低延迟的结构。此重新定位增加了服务器与主要开关之间的距离，使铜电缆在800 GB/s之类的高速上不切实际。因此，光学连接对于几乎所有服务器到开关和开关转换链接至关重要。

NVIDIA设计较慢的B30A芯片以满足我们的限制

在这种环境中使用可插入的光学模块的使用列出了固有的局限性。在这些设计中，数据信号退出了特定于应用程序的集成电路（ASIC），穿越板和连接器，然后将其转换为光线。该过程引入了明显的电损失，在200 GB/s通道上达到了约22分贝。对这一损失的补偿需要复杂的处理，这将人均功耗增加到30W。反过来，这需要额外的冷却并引入潜在的故障点。 NVIDIA断言，随着AI部署规模的扩大，这些问题变得越来越有问题。

CPO通过将光学转换引擎直接与开关ASIC旁边集成在一起，从而减轻与传统可插入光学模块相关的缺点。这种接近度允许信号几乎立即耦合到纤维，从而绕过了越过延长的电迹线的需求。结果，电损失减少到4分贝，每端口功耗降至9W。这种布置还消除了许多可能失败的组件，从而简化了光学互连的实现。

NVIDIA断言，从传统的可插入收发器和将光学发动机直接整合到Switch Silicon中，这是由TSMC的Coupe平台促进的，从而实现了效率，可靠性和可伸缩性的实质性提高。 NVIDIA报道说，CPO比可插入的模块具有显着优势，包括提高功率效率3.5倍，信号完整性提高了64倍，由于有效设备的减少而增加了10倍的弹性，并且由于更简单的服务和组装程序和组装程序而导致的约30％。

NVIDIA计划为以太网和Infiniband Technologies引入基于CPO的光学互连平台。该公司预计将在2026年初推出Quantum-X Infiniband开关。每个开关旨在提供115 TB/s的吞吐量，可容纳144个以800 GB/s运行的端口。该系统还结合了一个ASIC，其中包含14.4个TFLOPS网络处理处理，并支持NVIDIA的第四代可扩展分层降低协议（SHARP），旨在减少集体操作的延迟。这些开关将利用液体冷却。

Concurrently, Nvidia is preparing to integrate CPO into Ethernet through its Spectrum-X Photonics platform, scheduled for release in the second half of 2026. This platform will be based on the Spectrum-6 ASIC, which will power two distinct devices: the SN6810, offering 102.4 Tb/s of bandwidth across 128 ports at 800 Gb/s, and the SN6800, which scales to 409.6 TB/S和512端口以相同的速率运行。两种设备也将采用液体冷却。

NVIDIA设想其基于CPO的开关将驱动为生成AI应用设计的新的AI群集，这些群集变得越来越大且复杂。通过利用CPO，这些簇将消除数千个离散组件，从而导致安装时间更快，更容易维修和每个连接的功耗降低。因此，利用量子X Infiniband和Spectrum-X光子学的群集有望证明指标的改进，例如转移时间，第一次to及时间和整体长期可靠性。

NVIDIA强调，共包装的光学不仅是可选的增强功能，而且是对未来AI数据中心的基本要求。这表明该公司打算将其光学互连定位为竞争对手（例如AMD）提供的机架AI解决方案的关键区别和优势。在这种情况下，AMD对Enosemi的收购很重要。

NVIDIA的硅光子学计划的一个关键方面是与TSMC Coupe（紧凑型通用光子发动机）平台的演变密切的一致性。随着TSMC在未来几年的平台的发展，NVIDIA的CPO平台有望相应地改善。第一代TSMC的轿跑车是通过使用公司的SOIC-X包装技术堆叠使用光子集成电路（PIC）的65nm电子集成电路（EIC）来构建的。

TSMC Coupe路线图分为开发的三个阶段。初始一代涉及为OSFP连接器设计的光引擎，提供1.6 TB/S数据传输，同时减少功耗。第二代将Cowos包装与共包装光学元件结合在一起，导致主板级别的数据传输速率为6.4 TB/s。第三代旨在在处理器软件包内实现12.8 TB/S，并旨在进一步降低功耗和延迟。

特色图像信用