Nvidia是 规划 到2026年,其人工智能GPU之间实施基于光的通信,利用硅光子学在其下一代机架AI平台中与共包装光学元件(CPO)互连,以减少功耗以实现更高的传输速度。
在热芯片会议上,NVIDIA提供了有关其即将到来的Quantum-X和Spectrum-X光子学互连解决方案的进一步详细信息,概述了他们在2026年的预期到达。这些解决方案代表了朝着光学互连的重大举措,以管理大型AI GPU Clusters中数据传输需求不断增长的需求。
NVIDIA的发育时间轴有望紧密地反映TSMC的Coupe(紧凑型普遍光子发动机)路线图,该路线图分为三个不同的阶段。初始阶段涉及为OSFP连接器设计的光学引擎,促进数据传输为1.6 TB/s,同时降低功耗。第二阶段过渡到包含共包装光学元件的Cowos包装,从而在主板级别达到了6.4 TB/S的数据传输速率。第三阶段的重点是在处理器软件包内实现12.8 tb/s,目的是进一步降低功率使用和延迟。
CPO的必要性源于与大规模AI集群中数千个GPU相互联系的挑战,要求它们作为统一系统运行。这种体系结构需要对传统的网络配置进行修改。具体而言,将开关转移到行末端,而不是每个机架都有自己的层-1(顶部)开关,而是由短铜电缆连接。这种配置建立了跨越多个机架的一致,低延迟的结构。此重新定位增加了服务器与主要开关之间的距离,使铜电缆在800 GB/s之类的高速上不切实际。因此,光学连接对于几乎所有服务器到开关和开关转换链接至关重要。
在这种环境中使用可插入的光学模块的使用列出了固有的局限性。在这些设计中,数据信号退出了特定于应用程序的集成电路(ASIC),穿越板和连接器,然后将其转换为光线。该过程引入了明显的电损失,在200 GB/s通道上达到了约22分贝。对这一损失的补偿需要复杂的处理,这将人均功耗增加到30W。反过来,这需要额外的冷却并引入潜在的故障点。 NVIDIA断言,随着AI部署规模的扩大,这些问题变得越来越有问题。
CPO通过将光学转换引擎直接与开关ASIC旁边集成在一起,从而减轻与传统可插入光学模块相关的缺点。这种接近度允许信号几乎立即耦合到纤维,从而绕过了越过延长的电迹线的需求。结果,电损失减少到4分贝,每端口功耗降至9W。这种布置还消除了许多可能失败的组件,从而简化了光学互连的实现。
NVIDIA断言,从传统的可插入收发器和将光学发动机直接整合到Switch Silicon中,这是由TSMC的Coupe平台促进的,从而实现了效率,可靠性和可伸缩性的实质性提高。 NVIDIA报道说,CPO比可插入的模块具有显着优势,包括提高功率效率3.5倍,信号完整性提高了64倍,由于有效设备的减少而增加了10倍的弹性,并且由于更简单的服务和组装程序和组装程序而导致的约30%。
NVIDIA计划为以太网和Infiniband Technologies引入基于CPO的光学互连平台。该公司预计将在2026年初推出Quantum-X Infiniband开关。每个开关旨在提供115 TB/s的吞吐量,可容纳144个以800 GB/s运行的端口。该系统还结合了一个ASIC,其中包含14.4个TFLOPS网络处理处理,并支持NVIDIA的第四代可扩展分层降低协议(SHARP),旨在减少集体操作的延迟。这些开关将利用液体冷却。
Concurrently, Nvidia is preparing to integrate CPO into Ethernet through its Spectrum-X Photonics platform, scheduled for release in the second half of 2026. This platform will be based on the Spectrum-6 ASIC, which will power two distinct devices: the SN6810, offering 102.4 Tb/s of bandwidth across 128 ports at 800 Gb/s, and the SN6800, which scales to 409.6 TB/S和512端口以相同的速率运行。两种设备也将采用液体冷却。
NVIDIA设想其基于CPO的开关将驱动为生成AI应用设计的新的AI群集,这些群集变得越来越大且复杂。通过利用CPO,这些簇将消除数千个离散组件,从而导致安装时间更快,更容易维修和每个连接的功耗降低。因此,利用量子X Infiniband和Spectrum-X光子学的群集有望证明指标的改进,例如转移时间,第一次to及时间和整体长期可靠性。
NVIDIA强调,共包装的光学不仅是可选的增强功能,而且是对未来AI数据中心的基本要求。这表明该公司打算将其光学互连定位为竞争对手(例如AMD)提供的机架AI解决方案的关键区别和优势。在这种情况下,AMD对Enosemi的收购很重要。
NVIDIA的硅光子学计划的一个关键方面是与TSMC Coupe(紧凑型通用光子发动机)平台的演变密切的一致性。随着TSMC在未来几年的平台的发展,NVIDIA的CPO平台有望相应地改善。第一代TSMC的轿跑车是通过使用公司的SOIC-X包装技术堆叠使用光子集成电路(PIC)的65nm电子集成电路(EIC)来构建的。
TSMC Coupe路线图分为开发的三个阶段。初始一代涉及为OSFP连接器设计的光引擎,提供1.6 TB/S数据传输,同时减少功耗。第二代将Cowos包装与共包装光学元件结合在一起,导致主板级别的数据传输速率为6.4 TB/s。第三代旨在在处理器软件包内实现12.8 TB/S,并旨在进一步降低功耗和延迟。





