在将 Meta AI 更新带到每个平台的同时,Meta 还为技术爱好者发布了 Llama 3 基准测试。
该基准测试为独立研究人员和开发人员提供了标准化测试套件,以评估 Llama 3 在各种任务上的性能。
这种透明度使用户能够使用相同的基准将 Llama 3 的优点和缺点与其他法学硕士进行比较,从而更客观地了解其功能。
Llama 3 基准测试显示了什么?
Meta AI 建立了 Llama 3 基准,这是一套全面的评估套件,旨在评估法学硕士在各种任务中的表现。 这些任务包括回答问题、总结、遵循指令和小样本学习。 该基准是衡量 Llama 3 相对于其他法学硕士的优缺点的重要工具。
虽然由于评估方法不同,直接比较 Llama 3 基准与竞争对手使用的基准具有挑战性,但 Meta 声称,在其数据集上训练的 Llama 3 模型在所有评估任务中都取得了出色的性能。 这表明 Meta AI 与 LLM 领域的最佳水平不相上下。
以下是对 Llama 3 基准测试的更深入了解:
- 参数范围: Meta 声称其 8B 和 70B 参数 Llama 3 模型超越了 Llama 2,并为类似规模的法学硕士建立了新的最先进水平。
- 人类评价: Meta 对包含 12 个关键用例的综合数据集进行了人工评估。 该评估使 70B 指令跟随的 Llama 3 模型在现实场景中与同等规模的竞争对手相比具有优势。
这些是 Meta 自己的评估,为了进行更明确的比较,可能需要独立的基准测试。
开放权重与开源
区分“开放权重”和“开源”至关重要。 虽然 Llama 3 提供可免费下载的模型和权重,但由于访问和训练数据的限制(与真正的开源软件不同),它并不属于开源的严格定义。
Llama 3 有两种尺寸: 80 亿 (8B) 和 700亿(70B) 参数。 两者都是 可在 Meta 网站上免费下载 经过简单的注册过程后。
对 Meta AI 的技术深入探讨
Llama 3 提供两个版本:
- 预训练: 这是专注于下一个令牌预测的原始模型。
- 指令调整: 此版本经过微调以遵循特定的用户说明。
两个版本的上下文限制均为 8,192 个令牌。
培训详情
- 培训硬件: Meta 使用两个定制集群来训练 Llama 3,每个集群包含惊人的 24,000 个 GPU。
- 训练数据: Meta 首席执行官马克·扎克伯格 (Mark Zuckerberg) 在播客采访中透露,70B 模型是在包含约 15 万亿代币的海量数据集上进行训练的。 有趣的是,该模型在训练期间从未达到饱和点(峰值性能),这表明更大的数据集可能还有进一步改进的空间。
- 未来的计划: Meta 目前正在训练 Llama 3 的大型 400B 参数版本,有可能将其置于与竞争对手相同的性能联盟中 GPT-4涡轮增压 和 双子座超 MMLU、GPQA、HumanEval 和 MATH 等基准测试。
Llama 3 基准测试中的挑战
我们需要承认,由于培训数据污染和供应商对结果的挑选等因素,当前的法学硕士基准存在局限性。
尽管存在这些限制,Meta 还是提供了一些基准测试,展示了 Llama 3 在 MMLU(常识)、GSM-8K(数学)、HumanEval(编码)、GPQA(高级问题)和 MATH(文字问题)等任务上的性能。
这些基准使 8B 模型在与开放重量竞争对手(例如 谷歌的 Gemma 7B 和 米斯特拉尔7B 指导。 70B 型号在与知名品牌(如 双子座专业版 1.5 和 克劳德第 3 首十四行诗。
骆驼 3 的无障碍设施
Meta 计划在 AWS、Databricks、Google Cloud 等主要云平台上提供 Llama 3 模型,确保开发人员能够广泛使用。
Llama 3 构成了 Meta 虚拟助手的基础,它将在 Facebook、Instagram、WhatsApp、Messenger 的搜索功能中的特色,和一个 专用网站 类似于ChatGPT的界面(包括图像生成)。
此外, Meta 已与 Google 合作 将实时搜索结果集成到助手中,建立在他们的基础上 与微软 Bing 的现有合作伙伴关系。
特色图片来源: 元