Dataconomy CN
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy CN
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Meta AI 的 Llama 3.1 405B 意外击败 GPT-4o

Kerem GülenbyKerem Gülen
23 7 月, 2024
in 未分类

有关 Meta AI 的 Llama 3.1 405B 的泄露基准测试表明,这款开源 LLM 具有巨大的潜力。

泄露:Meta AI Llama 3.1 405B 基准测试

Meta 于 2024 年 4 月推出 Llama 3 作为新一代前沿开源大型语言模型,Llama 3 8B 和 Llama 3 70B 首次发布,为同规模的 LLM 树立了新的性能标杆。然而,短短三个月内,已有多个模型超越了这些初始基准,表明人工智能领域的进步速度之快。

Meta 宣布其 Llama 3 系列中最雄心勃勃的模型将拥有超过 4000 亿个参数,这是一个巨大的规模飞跃,目前仍在进行训练。事态发生戏剧性转折,即将推出的 Llama 3.1 模型(包括 8B、70B 和庞大的 405B)的早期基准数据在 LocalLLaMA 今日子版块。初步结果表明,Llama 3.1 405B 模型在几个关键的 AI 基准测试中可能超越目前行业领先者 OpenAI 的 GPT-4o 的表现。

如果 Llama 3.1 405B 模型确实超越了 GPT-4o,那么它将代表开源模型首次超越领先的闭源 LLM。

基准 GPT-4o Meta Llama-3.1-405B Meta Llama-3.1-70B Meta Llama-3-70B 元骆驼-3.1-8B 元骆驼-3-8B
布尔值 0.905 0.921 0.909 0.892 0.871 0.82
gsm8k 0.942 0.968 0.948 0.833 0.844 0.572
地狱之火 0.891 0.92 0.908 0.874 0.768 0.462
human_eval 0.921 0.854 0.793 0.39 0.683 0.341
mmlu_人文 0.802 0.818 0.795 0.706 0.619 0.56
mmlu_other 0.872 0.875 0.852 0.825 0.74 0.709
mmlu_社会科学 0.913 0.898 0.878 0.872 0.761 0.741
mmlu_stem 0.696 0.831 0.771 0.696 0.595 0.561
开放书问答 0.882 0.908 0.936 0.928 0.852 0.802
皮卡 0.844 0.874 0.862 0.894 0.801 0.764
social_iqa 0.79 0.797 0.813 0.789 0.734 0.667
truthfulqa_mc1 0.825 0.8 0.769 0.52 0.606 0.327
温诺格兰德 0.822 0.867 0.845 0.776 0.65 0.56

如上所示,泄露的基准测试显示,Meta 的 Llama 3.1 模型在各种测试中都胜过 OpenAI 的 GPT-4,在 AI 性能的几个关键领域树立了新标准。值得注意的是,Llama 3.1 在 GSM8K、Hellaswag、BoolQ、MMLU-humanities、MMLU-other、MMLU-STEM 和 Winograd 等基准测试中表现出色。然而,它在 HumanEval 和 MMLU-social sciences 测试中落后,表明需要进一步改进的领域。

必须认识到,这些基准测试反映了 Llama 3.1 基础模型的性能。这些模型的真正潜力可以通过指令调优来实现,这一过程可以显著增强其功能。即将推出的 Llama 3.1 模型的 Instruct 版本预计将产生更好的结果,并在各种基准测试中展示改进。

Meta AI Llama 3.1 405B 意外击败 GPT-4o
有关 Meta AI 的 Llama 3.1 405B 的泄露基准测试表明,这款开源 LLM 具有很大的潜力(图片来源)

强调开源计划的重要性

虽然 GPT-5 可能会挑战 Llama 3.1 的新兴主导地位,但 Llama 3.1 相对于 GPT-4 的出色表现凸显了开源 AI 计划日益增长的影响力和能力。

Meta 在一份声明中表示:“我们秉承尽早发布和频繁发布的开源精神,让社区能够在这些模型仍在开发时访问它们。我们今天发布的基于文本的模型是 Llama 3 模型系列中的第一个。我们近期的目标是让 Llama 3 具备多语言和多模式、更长的上下文,并继续提高推理和编码等核心 LLM 功能的整体性能。” 博客文章 启动 Llama 3 时。

开源 AI 的重要性不容小觑。通过向公众开放其先进模型,Meta 不仅实现了技术民主化,还充分利用了全球开发者社区的集体智慧和多样化观点。这种方法与闭源模型形成鲜明对比,闭源模型通常仅供特定用户和研究人员使用,从而限制了广泛创新和改进的潜力。


特色图片来源: Penfer/Unsplash

Please login to join discussion

Recent Posts

  • 布拉德·史密斯(Brad Smith
  • Chrome部署本地AI来检测新的新兴网络骗局
  • 基于模型的机器学习(MBML)
  • ML性能跟踪
  • 苹果为AI智能眼镜和Mac开发了新的芯片

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.