Meta AI 的 Llama 3.1 405B 意外击败 GPT-4o

有关 Meta AI 的 Llama 3.1 405B 的泄露基准测试表明，这款开源 LLM 具有巨大的潜力。

泄露：Meta AI Llama 3.1 405B 基准测试

Meta 于 2024 年 4 月推出 Llama 3 作为新一代前沿开源大型语言模型，Llama 3 8B 和 Llama 3 70B 首次发布，为同规模的 LLM 树立了新的性能标杆。然而，短短三个月内，已有多个模型超越了这些初始基准，表明人工智能领域的进步速度之快。

Meta 宣布其 Llama 3 系列中最雄心勃勃的模型将拥有超过 4000 亿个参数，这是一个巨大的规模飞跃，目前仍在进行训练。事态发生戏剧性转折，即将推出的 Llama 3.1 模型（包括 8B、70B 和庞大的 405B）的早期基准数据在 LocalLLaMA 今日子版块。初步结果表明，Llama 3.1 405B 模型在几个关键的 AI 基准测试中可能超越目前行业领先者 OpenAI 的 GPT-4o 的表现。

如果 Llama 3.1 405B 模型确实超越了 GPT-4o，那么它将代表开源模型首次超越领先的闭源 LLM。

基准	GPT-4o	Meta Llama-3.1-405B	Meta Llama-3.1-70B	Meta Llama-3-70B	元骆驼-3.1-8B	元骆驼-3-8B
布尔值	0.905	0.921	0.909	0.892	0.871	0.82
gsm8k	0.942	0.968	0.948	0.833	0.844	0.572
地狱之火	0.891	0.92	0.908	0.874	0.768	0.462
human_eval	0.921	0.854	0.793	0.39	0.683	0.341
mmlu_人文	0.802	0.818	0.795	0.706	0.619	0.56
mmlu_other	0.872	0.875	0.852	0.825	0.74	0.709
mmlu_社会科学	0.913	0.898	0.878	0.872	0.761	0.741
mmlu_stem	0.696	0.831	0.771	0.696	0.595	0.561
开放书问答	0.882	0.908	0.936	0.928	0.852	0.802
皮卡	0.844	0.874	0.862	0.894	0.801	0.764
social_iqa	0.79	0.797	0.813	0.789	0.734	0.667
truthfulqa_mc1	0.825	0.8	0.769	0.52	0.606	0.327
温诺格兰德	0.822	0.867	0.845	0.776	0.65	0.56

如上所示，泄露的基准测试显示，Meta 的 Llama 3.1 模型在各种测试中都胜过 OpenAI 的 GPT-4，在 AI 性能的几个关键领域树立了新标准。值得注意的是，Llama 3.1 在 GSM8K、Hellaswag、BoolQ、MMLU-humanities、MMLU-other、MMLU-STEM 和 Winograd 等基准测试中表现出色。然而，它在 HumanEval 和 MMLU-social sciences 测试中落后，表明需要进一步改进的领域。

必须认识到，这些基准测试反映了 Llama 3.1 基础模型的性能。这些模型的真正潜力可以通过指令调优来实现，这一过程可以显著增强其功能。即将推出的 Llama 3.1 模型的 Instruct 版本预计将产生更好的结果，并在各种基准测试中展示改进。

Meta AI Llama 3.1 405B 意外击败 GPT-4o — 有关 Meta AI 的 Llama 3.1 405B 的泄露基准测试表明，这款开源 LLM 具有很大的潜力（图片来源）

强调开源计划的重要性

虽然 GPT-5 可能会挑战 Llama 3.1 的新兴主导地位，但 Llama 3.1 相对于 GPT-4 的出色表现凸显了开源 AI 计划日益增长的影响力和能力。

Meta 在一份声明中表示：“我们秉承尽早发布和频繁发布的开源精神，让社区能够在这些模型仍在开发时访问它们。我们今天发布的基于文本的模型是 Llama 3 模型系列中的第一个。我们近期的目标是让 Llama 3 具备多语言和多模式、更长的上下文，并继续提高推理和编码等核心 LLM 功能的整体性能。” 博客文章启动 Llama 3 时。

开源 AI 的重要性不容小觑。通过向公众开放其先进模型，Meta 不仅实现了技术民主化，还充分利用了全球开发者社区的集体智慧和多样化观点。这种方法与闭源模型形成鲜明对比，闭源模型通常仅供特定用户和研究人员使用，从而限制了广泛创新和改进的潜力。

特色图片来源： Penfer/Unsplash

Meta AI 的 Llama 3.1 405B 意外击败 GPT-4o

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Meta AI 的 Llama 3.1 405B 意外击败 GPT-4o

泄露：Meta AI Llama 3.1 405B 基准测试

强调开源计划的重要性

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us