NVIDIA 推出了其下一代 AI 超级计算机 NVIDIA DGX SuperPOD,专门为解决生成人工智能的巨大计算需求而设计。
该强大系统利用了 NVIDIA GB200 Grace Blackwell Superchips 的处理能力。 每个 DGX GB200 系统都包含 36 个此类超级芯片,其中集成了 36 个 NVIDIA Grace CPU 和惊人的 72 个 NVIDIA Blackwell GPU。
得益于第五代 NVIDIA NVLink 技术,这些超级芯片可以作为单个高性能超级计算机来协同工作。
DGX SuperPOD 的核心
由 Grace Blackwell 提供支持的 DGX SuperPOD 提供了巨大的可扩展性。 它从至少八个 DGX GB200 系统开始,可以轻松扩展以包含通过 NVIDIA Quantum InfiniBand 互连的数万个 GB200 超级芯片。
寻求为具有大量共享内存需求的下一代人工智能模型提供动力的客户可以配置八个 DGX GB200 系统集群,通过 NVLink 连接 576 个 Blackwell GPU。
- 每个 DGX GB200 系统都拥有 36 颗 NVIDIA GB200 Grace Blackwell 超级芯片
- 这些超级芯片连接在一起,充当单个超级计算机
- 与之前的 GB200 超级芯片相比,GB200 超级芯片的性能提升了 30 倍,令人印象深刻 NVIDIA H100 张量核心 GPU
了解GB200
这 GB200超级芯片特色 Grace CPU 和 Blackwell GPU 的强大组合,专为满足大规模生成人工智能模型的苛刻计算需求而设计。 在这些复杂的模型中,CPU 和 GPU 元素的紧密集成对于实现最佳性能至关重要。
生成式人工智能模型的规模正在迅速增长。 GB200 专为处理万亿参数规模及以上运行的模型的复杂训练和推理工作负载而定制。
与 NVIDIA H100 Tensor Core GPU 相比,GB200 Superchips 在大型语言模型推理方面的性能提升了惊人的 30 倍。 这种性能飞跃对于跟上生成式人工智能的快速发展至关重要。
机架级架构 DGX SuperPOD 通过利用 GB200 Superchip 的功能进行了优化,以实现最大性能。 这确保了生成式人工智能工作流程能够大规模无缝处理。
扩展以满足前所未有的需求
NVIDIA 推出了一种新的液冷机架级架构,针对生成式 AI 的需求进行了优化。 与 NVIDIA BlueField-3 DPU 和 NVIDIA Quantum-X800 InfiniBand 网络一起,这创建了一个统一的计算结构。
该平台提供了惊人的 每个 GPU 每秒 1,800 GB 的带宽。 此外,第四代 NVIDIA 可扩展分层聚合和缩减协议 (SHARP) 提供 14.4 teraflops 的网络内计算能力 – 性能比之前的架构提升四倍。
完整的AI超算解决方案
DGX SuperPOD 提供全面的 AI 超级计算解决方案。
为了处理生成式 AI 工作负载的复杂性,它与 NVIDIA 认证合作伙伴的高性能存储解决方案无缝集成。 为了简化部署,每个系统都在工厂进行组装、接线和测试。
智能预测管理功能持续监控数千个硬件和软件数据点,最大限度地延长正常运行时间并最大限度地减少停机时间。
可用性及其他
NVIDIA 还发布了 NVIDIA DGX B200 系统,这是一个在全球各行业使用的基础统一 AI 超级计算平台。
NVIDIA 的 DGX SuperPOD 配备 GB200 超级芯片,有望加速生成式 AI 的进步。 从药物开发到科学模拟和内容创建,该技术的潜在应用有望重塑行业。
NVIDIA 的 AI 之旅
NVIDIA 配备 GB200 超级芯片的 DGX SuperPOD 代表了该领域的一个重要里程碑 公司正在进行的人工智能之旅。
NVIDIA 一直在测试超级计算的极限, 推动各行各业的创新。 这一最新系统释放的功能为令人兴奋的生成人工智能领域实现更具变革性的突破铺平了道路。
配备 DGX GB200 和 DGX B200 系统的 NVIDIA DGX SuperPOD NVIDIA 全球合作伙伴预计将于今年晚些时候推出。