有关 Meta AI 的 Llama 3.1 405B 的泄露基准测试表明,这款开源 LLM 具有巨大的潜力。
泄露:Meta AI Llama 3.1 405B 基准测试
Meta 于 2024 年 4 月推出 Llama 3 作为新一代前沿开源大型语言模型,Llama 3 8B 和 Llama 3 70B 首次发布,为同规模的 LLM 树立了新的性能标杆。然而,短短三个月内,已有多个模型超越了这些初始基准,表明人工智能领域的进步速度之快。
Meta 宣布其 Llama 3 系列中最雄心勃勃的模型将拥有超过 4000 亿个参数,这是一个巨大的规模飞跃,目前仍在进行训练。事态发生戏剧性转折,即将推出的 Llama 3.1 模型(包括 8B、70B 和庞大的 405B)的早期基准数据在 LocalLLaMA 今日子版块。初步结果表明,Llama 3.1 405B 模型在几个关键的 AI 基准测试中可能超越目前行业领先者 OpenAI 的 GPT-4o 的表现。
如果 Llama 3.1 405B 模型确实超越了 GPT-4o,那么它将代表开源模型首次超越领先的闭源 LLM。
基准 | GPT-4o | Meta Llama-3.1-405B | Meta Llama-3.1-70B | Meta Llama-3-70B | 元骆驼-3.1-8B | 元骆驼-3-8B |
布尔值 | 0.905 | 0.921 | 0.909 | 0.892 | 0.871 | 0.82 |
gsm8k | 0.942 | 0.968 | 0.948 | 0.833 | 0.844 | 0.572 |
地狱之火 | 0.891 | 0.92 | 0.908 | 0.874 | 0.768 | 0.462 |
human_eval | 0.921 | 0.854 | 0.793 | 0.39 | 0.683 | 0.341 |
mmlu_人文 | 0.802 | 0.818 | 0.795 | 0.706 | 0.619 | 0.56 |
mmlu_other | 0.872 | 0.875 | 0.852 | 0.825 | 0.74 | 0.709 |
mmlu_社会科学 | 0.913 | 0.898 | 0.878 | 0.872 | 0.761 | 0.741 |
mmlu_stem | 0.696 | 0.831 | 0.771 | 0.696 | 0.595 | 0.561 |
开放书问答 | 0.882 | 0.908 | 0.936 | 0.928 | 0.852 | 0.802 |
皮卡 | 0.844 | 0.874 | 0.862 | 0.894 | 0.801 | 0.764 |
social_iqa | 0.79 | 0.797 | 0.813 | 0.789 | 0.734 | 0.667 |
truthfulqa_mc1 | 0.825 | 0.8 | 0.769 | 0.52 | 0.606 | 0.327 |
温诺格兰德 | 0.822 | 0.867 | 0.845 | 0.776 | 0.65 | 0.56 |
如上所示,泄露的基准测试显示,Meta 的 Llama 3.1 模型在各种测试中都胜过 OpenAI 的 GPT-4,在 AI 性能的几个关键领域树立了新标准。值得注意的是,Llama 3.1 在 GSM8K、Hellaswag、BoolQ、MMLU-humanities、MMLU-other、MMLU-STEM 和 Winograd 等基准测试中表现出色。然而,它在 HumanEval 和 MMLU-social sciences 测试中落后,表明需要进一步改进的领域。
必须认识到,这些基准测试反映了 Llama 3.1 基础模型的性能。这些模型的真正潜力可以通过指令调优来实现,这一过程可以显著增强其功能。即将推出的 Llama 3.1 模型的 Instruct 版本预计将产生更好的结果,并在各种基准测试中展示改进。
强调开源计划的重要性
虽然 GPT-5 可能会挑战 Llama 3.1 的新兴主导地位,但 Llama 3.1 相对于 GPT-4 的出色表现凸显了开源 AI 计划日益增长的影响力和能力。
Meta 在一份声明中表示:“我们秉承尽早发布和频繁发布的开源精神,让社区能够在这些模型仍在开发时访问它们。我们今天发布的基于文本的模型是 Llama 3 模型系列中的第一个。我们近期的目标是让 Llama 3 具备多语言和多模式、更长的上下文,并继续提高推理和编码等核心 LLM 功能的整体性能。” 博客文章 启动 Llama 3 时。
开源 AI 的重要性不容小觑。通过向公众开放其先进模型,Meta 不仅实现了技术民主化,还充分利用了全球开发者社区的集体智慧和多样化观点。这种方法与闭源模型形成鲜明对比,闭源模型通常仅供特定用户和研究人员使用,从而限制了广泛创新和改进的潜力。
特色图片来源: Penfer/Unsplash