大型语言模型 (LLM) 已经展现出非凡的能力——它们可以对话式聊天、生成创造性的文本格式等等。 然而,当要求他们对开放式问题提供详细的事实答案时,他们仍然可能达不到要求。 法学硕士可能会提供听起来合理但不正确的信息,让用户面临区分事实和虚构的挑战。
领先的人工智能研究公司 Google DeepMind 正在正面解决这个问题。 他们最近的论文“大型语言模型中的长篇事实性”介绍了我们如何衡量事实准确性以及如何在法学硕士中提高事实准确性方面的创新。
LongFact:事实准确性的基准
DeepMind 首先解决了缺乏可靠的方法来测试长篇事实性的问题。 他们创建了 LongFact,这是一个包含 2,000 多个具有挑战性的事实寻求提示的数据集,需要详细的多段落响应。 这些提示涵盖了广泛的主题来测试 法学硕士能够在不同的学科领域生成事实文本。
SAFE:搜索增强的事实性评估
下一个挑战是确定如何准确评估法学硕士的回答。 DeepMind 开发了 搜索增强事实性评估器 (安全的)。 巧妙之处在于:SAFE 本身使用法学硕士来进行此评估!
它的工作原理如下:
- 分解一下: SAFE 将长篇 LLM 回答分解为较小的个人事实陈述。
- 搜索并验证: 对于每个事实陈述,SAFE 都会制作搜索查询并将其发送到 Google 搜索。
- 拨打电话: SAFE 分析搜索结果并将其与事实陈述进行比较,确定该陈述是否得到在线证据的支持。
F1@K:长格式回复的新指标
深度思维 还提出了一种对长篇事实回答进行评分的新方法。 传统的 F1 分数(用于分类任务)并不是为处理更长、更复杂的文本而设计的。 F1@K 平衡了精确度(所提供事实的正确百分比)与召回率的概念。
召回率考虑了用户的理想回答长度——毕竟,法学硕士可以通过提供单个正确的事实来获得高精度,而详细的答案会得到较低的分数。
更大的法学硕士,更好的事实
DeepMind 对一系列不同大小的大型语言模型进行了基准测试,他们的发现与直觉一致,即较大的模型往往表现出更高的长篇事实准确性。 这可以通过以下事实来解释:较大的模型是在大量文本和代码数据集上进行训练的,这使它们对世界有了更丰富、更全面的理解。
想象一下法学硕士就像一个学习了海量书籍的学生。 学生读的书越多,他们遇到并记住各种主题的事实信息的可能性就越大。 同样,规模较大的法学硕士拥有更广泛的信息接触,更有能力生成符合事实的文本。
为了执行此测量,Google DeepMind 测试了以下模型: 双子座, GPT, 克洛德 (版本 3 和 2),以及 棕榈。 结果如下:
要点:谨慎乐观
DeepMind 的研究展示了一条通往法学硕士的充满希望的道路,可以提供更可靠的事实信息。 SAFE 在某些测试中达到了超过人类评分者的准确度水平。
然而,重要的是要注意这些限制:
搜索引擎依赖: SAFE 的准确性取决于搜索结果的质量以及法学硕士解释这些结果的能力。
不重复的事实: F1@K 指标假设理想的响应不会包含重复信息。
尽管存在潜在的局限性,但这项工作无可否认地推动了真实人工智能系统的发展。 随着法学硕士的不断发展,它们准确传达事实的能力可能会对我们如何使用这些模型查找信息和理解复杂主题产生深远的影响。
特色图片来源: 手绘