Dataconomy CN
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy CN
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Google DeepMind 的事实探索:利用 SAFE 提高法学硕士的长格式准确性

Emre ÇıtakbyEmre Çıtak
1 4 月, 2024
in 未分类

大型语言模型 (LLM) 已经展现出非凡的能力——它们可以对话式聊天、生成创造性的文本格式等等。 然而,当要求他们对开放式问题提供详细的事实答案时,他们仍然可能达不到要求。 法学硕士可能会提供听起来合理但不正确的信息,让用户面临区分事实和虚构的挑战。

领先的人工智能研究公司 Google DeepMind 正在正面解决这个问题。 他们最近的论文“大型语言模型中的长篇事实性”介绍了我们如何衡量事实准确性以及如何在法学硕士中提高事实准确性方面的创新。

LongFact:事实准确性的基准

DeepMind 首先解决了缺乏可靠的方法来测试长篇事实性的问题。 他们创建了 LongFact,这是一个包含 2,000 多个具有挑战性的事实寻求提示的数据集,需要详细的多段落响应。 这些提示涵盖了广泛的主题来测试 法学硕士能够在不同的学科领域生成事实文本。

SAFE:搜索增强的事实性评估

下一个挑战是确定如何准确评估法学硕士的回答。 DeepMind 开发了 搜索增强事实性评估器 (安全的)。 巧妙之处在于:SAFE 本身使用法学硕士来进行此评估!

它的工作原理如下:

  1. 分解一下: SAFE 将长篇 LLM 回答分解为较小的个人事实陈述。
  2. 搜索并验证: 对于每个事实陈述,SAFE 都会制作搜索查询并将其发送到 Google 搜索。
  3. 拨打电话: SAFE 分析搜索结果并将其与事实陈述进行比较,确定该陈述是否得到在线证据的支持。
Google DeepMind Safe LLM 检查器
SAFE 本身利用大型语言模型来评估响应 (图片来源)

F1@K:长格式回复的新指标

深度思维 还提出了一种对长篇事实回答进行评分的新方法。 传统的 F1 分数(用于分类任务)并不是为处理更长、更复杂的文本而设计的。 F1@K 平衡了精确度(所提供事实的正确百分比)与召回率的概念。

召回率考虑了用户的理想回答长度——毕竟,法学硕士可以通过提供单个正确的事实来获得高精度,而详细的答案会得到较低的分数。

更大的法学硕士,更好的事实

DeepMind 对一系列不同大小的大型语言模型进行了基准测试,他们的发现与直觉一致,即较大的模型往往表现出更高的长篇事实准确性。 这可以通过以下事实来解释:较大的模型是在大量文本和代码数据集上进行训练的,这使它们对世界有了更丰富、更全面的理解。

想象一下法学硕士就像一个学习了海量书籍的学生。 学生读的书越多,他们遇到并记住各种主题的事实信息的可能性就越大。 同样,规模较大的法学硕士拥有更广泛的信息接触,更有能力生成符合事实的文本。

为了执行此测量,Google DeepMind 测试了以下模型: 双子座, GPT, 克洛德 (版本 3 和 2),以及 棕榈。 结果如下:

Google DeepMind Safe LLM 检查器
DeepMind 对不同大小的各种大型语言模型进行了基准测试,发现较大的模型往往表现出更高的长格式事实准确性 (图片来源)

要点:谨慎乐观

DeepMind 的研究展示了一条通往法学硕士的充满希望的道路,可以提供更可靠的事实信息。 SAFE 在某些测试中达到了超过人类评分者的准确度水平。

然而,重要的是要注意这些限制:

  • 搜索引擎依赖: SAFE 的准确性取决于搜索结果的质量以及法学硕士解释这些结果的能力。

  • 不重复的事实: F1@K 指标假设理想的响应不会包含重复信息。

尽管存在潜在的局限性,但这项工作无可否认地推动了真实人工智能系统的发展。 随着法学硕士的不断发展,它们准确传达事实的能力可能会对我们如何使用这些模型查找信息和理解复杂主题产生深远的影响。


特色图片来源: 手绘

Please login to join discussion

Recent Posts

  • 元线程刚刚有点X-EIR
  • 坦佩雷呼叫:在Imagine CityScapes 2025中潜入“ Citiverse”
  • 这个亚马逊机器人有一种感觉
  • Openai和Xai与FDA谈话AI药物评估
  • 尽管蓬勃发展

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.