Groq 最近展示了其语言处理单元的卓越功能,为处理速度设定了新的基准,引发了 LPU 与 GPU 的激烈争论。 本周,Groq 的 LPU 通过执行 Llama-2 等开源大型语言模型 (LLM) 震惊了科技界,Llama-2 拥有 700 亿个参数,速度惊人,每秒超过 100 个令牌。
此外,它还展示了 Mixtral 的强大实力,实现了每位用户每秒近 500 个代币。 这一突破凸显了计算范式的潜在转变,在处理基于语言的任务时,LPU 可能会为传统上占主导地位的 GPU 提供一种专门的、更高效的替代方案。
什么是线路板?
LPU 到底是什么、它的工作机制以及 Groq 的起源(不幸的是,这个名字与马斯克的类似名字 Grok 发生了冲突)? Groq 的在线形象介绍了其 LPU,即“语言处理单元”,“一种新型的端到端处理单元系统,可为具有顺序组件的计算密集型应用程序(例如人工智能语言应用程序(LLM))提供最快的推理。”
回顾2016年那场历史性的围棋比赛, 在哪里 AlphaGo击败世界冠军李世石? 有趣的是,大约在他们对决前一个月,AlphaGo 输掉了一场练习赛。 随后,DeepMind 团队将 AlphaGo 升级为张量处理单元(TPU),显着提升了其性能,以大幅优势取得了胜利。
这一刻展示了处理能力在释放复杂计算的全部潜力方面的关键作用,启发了最初在 Google 领导 TPU 项目的 Jonathan Ross,他于 2016 年创立了 Groq,从而推动了 LPU 的开发。 LPU 经过独特设计,可快速处理基于语言的操作。 与同时处理大量任务(并行处理)的传统芯片相反,LPU 按顺序处理任务(顺序处理),使其对于语言理解和生成非常有效。
考虑接力赛的类比,每个参与者(芯片)将接力棒(数据)交给下一个,从而显着加速了这一过程。 LPU 的具体目标是解决大型语言模型 (LLM) 中计算密度和内存带宽的双重挑战。
Groq 从一开始就采取了创新战略,在硬件开发之前优先考虑软件和编译器创新。 这种方法确保编程能够指导芯片间通信,促进协调和高效的操作,就像生产线上润滑良好的机器一样。
因此, LPU 擅长快速高效地管理语言任务,使其非常适合需要文本解释或生成的应用程序。 这一突破使得系统不仅在速度上超越了传统配置,而且在成本效益和能源消耗方面也超越了传统配置。 这些进步对金融、政府和技术等行业具有重大影响,在这些行业中,快速、精确的数据处理至关重要。
深入研究语言处理单元 (LPU)
为了更深入地了解其架构,Groq 发表了两篇论文:
- 2020 年的一篇题为:“Think Fast:用于加速深度学习工作负载的张量流处理器 (TSP)“
- 2022 年的另一则消息称:“用于大规模机器学习的软件定义张量流多处理器“
出现名称“线路板” 是 Groq 词典中的一个较新的术语,因为它在两个文档中都没有出现。
不过,现在还不是丢弃 GPU 的时候。 尽管 LPU 擅长推理任务,可以轻松处理训练模型对新数据的应用, GPU 在模型训练阶段保持着主导地位。 LPU 和 GPU 之间的协同作用可以在人工智能硬件领域形成强大的合作伙伴关系,每个单元都在其特定领域专业化并处于领先地位。
LPU 与 GPU
让我们比较 LPU 与 GPU,以更清楚地了解它们的独特优势和局限性。
GPU:多功能动力源
图形处理单元或 GPU, 已经超越了最初的设计 渲染视频游戏图形成为人工智能 (AI) 和机器学习 (ML) 工作的关键要素的目的。 它们的架构是并行处理能力的灯塔,能够同时执行数千个任务。
此属性对于依靠并行化蓬勃发展的算法特别有益,可以有效加速从复杂模拟到深度学习模型训练的任务。
GPU 的多功能性是另一个值得称赞的特性; 这些处理器能够熟练地处理各种任务,不仅限于人工智能,还包括游戏和视频渲染。 它们的并行处理能力显着加快了 ML 模型的训练和推理阶段,展示了显着的速度优势。
然而,GPU 也并非没有局限性。 他们的高性能努力是以大量能源消耗为代价的,对能源效率提出了挑战。 此外,它们的通用设计虽然灵活,但可能并不总是能为特定的人工智能任务提供最高的效率,这暗示着专业应用程序可能存在效率低下的情况。
LPU:语言专家
语言处理单元 代表了人工智能处理器技术的前沿,其设计理念深深植根于自然语言处理(NLP)任务。 与 GPU 对应项不同,LPU 是 针对顺序处理进行了优化,这是准确理解和生成人类语言的必要条件。 这种专业化赋予 LPU 在 NLP 应用中卓越的性能,在翻译和内容生成等任务中超越通用处理器。 LPU 在处理语言模型方面的效率非常突出,有可能减少 NLP 任务的时间和能量占用。
然而,LPU 的专业化是一把双刃剑。 虽然它们在语言处理方面表现出色,但它们的应用范围较窄,限制了它们在更广泛的人工智能任务范围内的多功能性。 此外,作为新兴技术,LPU 面临着广泛支持和可用性方面的挑战,而时间和技术采用可能会弥补这一差距。
特征 | GPU | 线路板 |
设计目的 | 最初用于视频游戏图形 | 专门针对自然语言处理任务 |
优点 | 多功能性、并行处理 | NLP专业化、高效化 |
局限性 | 能源消耗,通用设计 | 应用范围有限,新兴技术 |
适合于 | AI/ML 任务、游戏、视频渲染 | NLP 任务(例如翻译、内容生成) |
加工类型 | 平行线 | 顺序 |
能源效率 | 由于高性能任务而降低 | 由于针对特定任务的优化,可能会更高 |
Grok LPU 会改变人工智能推理的未来吗?
关于 LPU 与 GPU 的争论一直在升温。 最初,当 Grok 的公共关系团队去年年底宣称它是人工智能开发的关键参与者时,Grok 引起了人们的兴趣。 尽管最初很好奇,但由于日程安排冲突,与公司领导层的对话被推迟了。
人们再次燃起了人们的兴趣,因为人们想了解这家公司是否代表了人工智能炒作周期中的又一个转瞬即逝的时刻(通过宣传似乎可以提高知名度),或者它的 LPU 是否真正标志着人工智能推理领域的革命性一步。 人们还对该公司相对较小的团队的经历提出了质疑,尤其是在科技硬件领域获得显着认可之后。
当一个关键时刻到来时 社交媒体帖子大大增加了人们对公司的兴趣,在短短一天之内就引发了数以千计的有关访问其技术的询问。 该公司的创始人在视频通话中分享了这些细节,强调了压倒性的反响以及由于缺乏计费系统而免费提供其技术的当前做法。
这位创始人对硅谷的创业生态系统并不陌生,自 2016 年成立以来,他一直是该公司技术潜力的倡导者。此前,他曾在另一家大型科技公司参与开发关键计算技术,为启动这家新企业奠定了基础。 这种经验对于形成该公司独特的硬件开发方法至关重要,该方法从一开始就注重用户体验,在转向芯片的物理设计之前,最初的工作主要针对软件工具。
这种叙述强调了向 LPU 等专用处理器的重大转变,这可能会开启人工智能推理的新时代,提供更高效、更有针对性的计算解决方案。 随着业界不断评估此类创新的影响,LPU 重新定义人工智能应用中计算方法的潜力仍然是一个引人注目的讨论点,这预示着人工智能技术的变革性未来。
图片来源: 凯雷姆·葛兰/中途