Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Llama 3 基准测试揭示了 Meta AI 与 ChatGPT 和 Gemini 相比如何

Emre ÇıtakbyEmre Çıtak
19 4 月, 2024
in 未分类

在将 Meta AI 更新带到每个平台的同时,Meta 还为技术爱好者发布了 Llama 3 基准测试。

该基准测试为独立研究人员和开发人员提供了标准化测试套件,以评估 Llama 3 在各种任务上的性能。

这种透明度使用户能够使用相同的基准将 Llama 3 的优点和缺点与其他法学硕士进行比较,从而更客观地了解其功能。

Llama 3 基准测试显示了什么?

Meta AI 建立了 Llama 3 基准,这是一套全面的评估套件,旨在评估法学硕士在各种任务中的表现。 这些任务包括回答问题、总结、遵循指令和小样本学习。 该基准是衡量 Llama 3 相对于其他法学硕士的优缺点的重要工具。

虽然由于评估方法不同,直接比较 Llama 3 基准与竞争对手使用的基准具有挑战性,但 Meta 声称,在其数据集上训练的 Llama 3 模型在所有评估任务中都取得了出色的性能。 这表明 Meta AI 与 LLM 领域的最佳水平不相上下。

以下是对 Llama 3 基准测试的更深入了解:

  • 参数范围: Meta 声称其 8B 和 70B 参数 Llama 3 模型超越了 Llama 2,并为类似规模的法学硕士建立了新的最先进水平。
  • 人类评价: Meta 对包含 12 个关键用例的综合数据集进行了人工评估。 该评估使 70B 指令跟随的 Llama 3 模型在现实场景中与同等规模的竞争对手相比具有优势。

这些是 Meta 自己的评估,为了进行更明确的比较,可能需要独立的基准测试。

Llama 3 基准测试 Meta AI vs ChatGPT vs Gemini
尽管当前的基准测试存在限制,Llama 3 在各种任务中都表现出了强劲的性能 (图片来源)

开放权重与开源

区分“开放权重”和“开源”至关重要。 虽然 Llama 3 提供可免费下载的模型和权重,但由于访问和训练数据的限制(与真正的开源软件不同),它并不属于开源的严格定义。

Llama 3 有两种尺寸: 80 亿 (8B) 和 700亿(70B) 参数。 两者都是 可在 Meta 网站上免费下载 经过简单的注册过程后。

对 Meta AI 的技术深入探讨

Llama 3 提供两个版本:

  • 预训练: 这是专注于下一个令牌预测的原始模型。
  • 指令调整: 此版本经过微调以遵循特定的用户说明。

两个版本的上下文限制均为 8,192 个令牌。

Llama 3 基准测试 Meta AI vs ChatGPT vs Gemini
Llama 3 模型,提供 80 亿(8B)和 700 亿(70B)参数 (图片来源)

培训详情

  • 培训硬件: Meta 使用两个定制集群来训练 Llama 3,每个集群包含惊人的 24,000 个 GPU。
  • 训练数据: Meta 首席执行官马克·扎克伯格 (Mark Zuckerberg) 在播客采访中透露,70B 模型是在包含约 15 万亿代币的海量数据集上进行训练的。 有趣的是,该模型在训练期间从未达到饱和点(峰值性能),这表明更大的数据集可能还有进一步改进的空间。
  • 未来的计划: Meta 目前正在训练 Llama 3 的大型 400B 参数版本,有可能将其置于与竞争对手相同的性能联盟中 GPT-4涡轮增压 和 双子座超 MMLU、GPQA、HumanEval 和 MATH 等基准测试。

Llama 3 基准测试中的挑战

我们需要承认,由于培训数据污染和供应商对结果的挑选等因素,当前的法学硕士基准存在局限性。

尽管存在这些限制,Meta 还是提供了一些基准测试,展示了 Llama 3 在 MMLU(常识)、GSM-8K(数学)、HumanEval(编码)、GPQA(高级问题)和 MATH(文字问题)等任务上的性能。

这些基准使 8B 模型在与开放重量竞争对手(例如 谷歌的 Gemma 7B 和 米斯特拉尔7B 指导。 70B 型号在与知名品牌(如 双子座专业版 1.5 和 克劳德第 3 首十四行诗。

Llama 3 基准测试 Meta AI vs ChatGPT vs Gemini
Meta 使用每个包含 24,000 个 GPU 的定制集群来训练 Llama 3 (图片来源)

骆驼 3 的无障碍设施

Meta 计划在 AWS、Databricks、Google Cloud 等主要云平台上提供 Llama 3 模型,确保开发人员能够广泛使用。

Llama 3 构成了 Meta 虚拟助手的基础,它将在 Facebook、Instagram、WhatsApp、Messenger 的搜索功能中的特色,和一个 专用网站 类似于ChatGPT的界面(包括图像生成)。

此外, Meta 已与 Google 合作 将实时搜索结果集成到助手中,建立在他们的基础上 与微软 Bing 的现有合作伙伴关系。


特色图片来源: 元

Related Posts

智能面料对战术服装性能的影响

智能面料对战术服装性能的影响

15 5 月, 2025
Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购

Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购

15 5 月, 2025
Alphaevolve:Google的新AI如何以自我纠正为目标

Alphaevolve:Google的新AI如何以自我纠正为目标

15 5 月, 2025
Tiktok正在实施AI生成的ALT文本,以提高可获得性

Tiktok正在实施AI生成的ALT文本,以提高可获得性

15 5 月, 2025
特朗普迫使苹果重新考虑其印度iPhone策略

特朗普迫使苹果重新考虑其印度iPhone策略

15 5 月, 2025
YouTube的AI现在知道您何时要购买

YouTube的AI现在知道您何时要购买

15 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.