Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

谷歌的 DataGemma 如何使用 RAG 对抗 AI 幻觉

Kerem GülenbyKerem Gülen
17 9 月, 2024
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

谷歌在提高人工智能模型准确性和可靠性方面又迈出了重要一步 介绍 DataGemma 的创新方法,结合了 Gemma 大型语言模型 (LLM) 和 Data Commons 项目。这里的焦点是一种称为 检索增强生成 (RAG)这种方法在企业中越来越受欢迎,但现在,谷歌旨在借助 DataGemma 将其带入人工智能主流。

从本质上讲,RAG 旨在解决 LLM 面临的最大挑战之一:幻觉问题。在生成式 AI 领域,幻觉是指模型生成的信息听起来合理但实际上不正确的情况。这是 AI 系统中常见的问题,尤其是当它们缺乏可靠的事实数据基础时。Google 开发 DataGemma 的目标是“利用 Data Commons 的知识来增强 LLM 的真实性和推理能力”,正面解决这一问题。

什么是 RAG?

检索增强生成改变了游戏规则,因为它不完全依赖预先训练的 AI 模型来生成答案。相反,它会在生成响应之前从外部源检索相关数据。这种方法允许 AI 通过从存储库中提取真实世界数据来提供更准确、更符合语境的答案。在 DataGemma 的案例中,这些数据的来源是 Google 的数据共享项目,这是一种公开资源,汇集了来自联合国等知名机构的统计数据。

谷歌将 Data Commons 与其生成式 AI 模型整合在一起的举措代表着 首次大规模基于云的 RAG 实施。虽然许多企业已经使用 RAG 将其 AI 模型建立在专有数据上,但使用 Data Commons 等公共数据资源将事情提升到了一个全新的水平。这表明谷歌打算使用可验证的高质量数据,使 AI 在广泛的应用中更加可靠和有用。

谷歌的 DataGemma 如何使用 RAG 对抗 AI 幻觉
据 Google 介绍,DataGemma 采用“两种不同的方法”将数据检索与 LLM 输出相结合(图片来源)

谷歌的双管齐下策略

据谷歌称, DataGemma 采取“两种不同的方法” 将数据检索与 LLM 输出集成。第一种方法称为 检索交错生成 (RIG)。借助 RIG,AI 可以获取特定统计数据来核实查询提示中提出的问题。例如,如果用户问“世界上可再生能源的使用量增加了吗?”系统可以从 Data Commons 中提取最新统计数据,并在其响应中直接引用它们。这不仅提高了答案的事实准确性,还为用户提供了信息的具体来源。

第二种方法更符合传统的 RAG 方法。在这里,模型检索数据以生成更全面、更详细的响应,并引用数据来源来创建更完整的图景。 “DataGemma 在模型启动响应生成之前从 Data Commons 检索相关的上下文信息。” 谷歌表示。这确保了人工智能在开始生成答案之前掌握了所有必要的事实,大大降低了出现幻觉的可能性。

DataGemma 的一个关键特性是使用 Google 的 双子座1.5型,拥有令人印象深刻的 上下文窗口最多可容纳 128,000 个 token。在 AI 术语中,上下文窗口是指模型在处理查询时可以在内存中保存多少信息。窗口越大,模型在生成响应时可以考虑的数据就越多。Gemini 1.5 甚至可以扩展到惊人的 100 万个代币,允许它从数据共享空间中提取大量数据并使用它来制作详细、细致的响应。

这个扩展的上下文窗口至关重要,因为它允许 DataGemma “最大限度地降低出现幻觉的风险,提高反应的准确性。” 据谷歌称,通过在内存中保存更多相关信息,该模型可以将自己的输出与真实世界数据进行交叉检查,确保其提供的答案不仅相关,而且有事实依据。

谷歌的 DataGemma 如何使用 RAG 对抗 AI 幻觉
DataGemma 的一个关键特性是使用 Google 的 Gemini 1.5 模型(图片来源)

超越法学硕士

虽然 RAG 技术的集成本身就令人兴奋,但 DataGemma 也代表了人工智能领域的更广泛转变。大型语言模型不再只是根据训练内容生成文本或回答问题。人工智能的未来在于它能够 与实时数据源集成,确保其输出尽可能准确和最新。

谷歌并不是唯一一家这么做的公司。就在上周, OpenAI 揭幕 它是 “草莓”项目,它采用了不同的方法来改进人工智能推理。Strawberry 使用了一种称为 “思路链”,其中人工智能详细说明了它用于得出预测或结论的步骤或因素。虽然与 RAG 不同,但目标是相似的:通过提供对其答案背后原因的洞察,使人工智能更加透明、可靠和有用。

DataGemma 的下一步计划是什么?

目前,DataGemma 仍在开发中。 谷歌承认需要进行更多测试和开发 在该系统向公众广泛开放之前,还需要一段时间。不过,早期结果令人鼓舞。谷歌声称 RIG 和 RAG 方法都提高了输出质量, “在研究、决策或仅仅满足好奇心的情况下,幻觉会减少。”

显然,谷歌和其他领先的人工智能公司正在超越大型语言模型的基本功能。人工智能的未来在于它与外部数据源集成的能力,无论是 Data Commons 等公共数据库还是专有的公司数据。通过这样做,人工智能可以超越其局限性,成为决策、研究和探索的更强大的工具。


特色图片来源: 谷歌

Tags: 数据宝石精选谷歌

Related Posts

三星 Bixby 在新更新中获得 Perplexity AI 搜索能力

三星 Bixby 在新更新中获得 Perplexity AI 搜索能力

29 12 月, 2025
阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

26 12 月, 2025
ChatGPT 演变成具有新格式块的办公套件

ChatGPT 演变成具有新格式块的办公套件

26 12 月, 2025
Google NotebookLM 推出 "讲座模式" 30分钟AI学习

Google NotebookLM 推出 "讲座模式" 30分钟AI学习

26 12 月, 2025
亚马逊将 Angi、Expedia、Square 和 Yelp 添加到 Alexa+

亚马逊将 Angi、Expedia、Square 和 Yelp 添加到 Alexa+

26 12 月, 2025
Waymo 机器人出租车可能会配备 Gemini AI 车内助手

Waymo 机器人出租车可能会配备 Gemini AI 车内助手

26 12 月, 2025
Please login to join discussion

Recent Posts

  • CES 2026:如何观看 NVIDIA 的演示
  • CES 2026:如何观看海信的演示
  • CES 2026:如何观看现代汽车的演示
  • CES 2026:如何观看博世的演示
  • 卡耐基梅隆大学研究人员开发由人工智能驱动的自动移动物体

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.