埃隆·马斯克再次成为头条新闻,他向世界展示了 Cortex,这是 X 目前正在建造的 AI 训练超级计算机 特斯拉的德克萨斯州超级工厂在一段令人惊叹又超现实的视频中,马斯克展示了价值 10 亿美元的 AI GPU 究竟是什么样子。但如果这还不足以让科技爱好者大吃一惊的话,马斯克最近在他的平台 X 上透露,真正的重头戏——Colossus,一个拥有 10 万个 H100 训练集群的集群——已经正式上线。
AI集群到底是什么?
人工智能集群是一个由数千台计算机组成的巨型大脑,它们共同协作,以闪电般的速度处理大量信息。像 Colossus 这样的集群不是使用一台计算机,而是使用数千台专用机器,每台机器都配备了强大的芯片(称为 GPU),旨在处理人工智能所需的极其复杂的计算。
这些集群通过输入大量数据来训练人工智能模型——就像在短时间内给学生数千本书来阅读一样。
有关 xAI Colossus 的所有详细信息
马斯克毫不掩饰自己的骄傲,声称 Colossus 是“世界上最强大的 AI 训练系统”。更令人印象深刻的是,这个庞大的项目“从开始到结束”仅用了 122 天就完成了。
考虑到所涉及的规模和复杂性,这绝非易事。xAI 集群的服务器由戴尔和 Supermicro 提供,虽然马斯克没有透露具体数字,但估计成本高达惊人的 30 至 40 亿美元。
本周末, @xAI 团队将我们的 Colossus 100k H100 训练集群上线。从开始到结束,一共花了 122 天。
Colossus 是世界上最强大的 AI 训练系统。此外,它的规模将在几个月内翻倍至 20 万台(5 万台 H200)。
出色的…
— 伊隆·马斯克(@elonmusk) 2024 年 9 月 2 日
现在,事情变得非常有趣了。 尽管该系统已经投入运行,但目前尚不清楚其中有多少集群能够完全正常运行。 对于这种规模的系统来说,这种情况并不罕见,因为它们需要进行大量调试和优化才能全速运行。但是当你处理像 Colossus 这样规模的系统时,每个细节都很重要,即使只是发挥其全部潜力的一小部分,也可能胜过大多数其他系统。
未来看起来将更加紧张。 Colossus 的规模将扩大一倍,计划再增加 100,000 个 GPU——分为 Nvidia 当前的 H100 单元和备受期待的 H200 芯片。 此次升级将主要用于支持 xAI 最新、最先进的 AI 模型 Grok-3 的训练,该模型旨在突破我们认为 AI 可能的界限。
特色图片来源: 玻利维亚Inteligente/Unsplash