Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

AI聊天机器人在3个回复中的1个中传播错误信息

Emre ÇıtakbyEmre Çıtak
5 9 月, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Newsguard最近进行的一项研究表明,在每三个响应中,大约有一个聊天机器人正在产生虚假信息。该分析评估了十种最广泛使用的人工智能(AI)聊天机器人的准确性。专门从事新闻来源评级的公司Newsguard确定,即使AI聊天机器人也越来越多地提供答案,即使缺乏足够的信息,他们的行为发生了变化。这种转变导致这些AI系统产生的虚假或误导性陈述的流行率更高。 Newsguard报告确定了特定的聊天机器人,产生虚假索赔的比率最高。拐点AI的PI的速率最高,其中57%的响应包含不准确的信息。 PI之后,发现困惑AI在其47%的答案中产生了错误的主张。 Openai的Chatgpt和Meta的Llama等广泛使用的聊天机器人也表现出显着的虚假速度。研究发现,Chatgpt和Llama都在40%的回答中传播了虚假信息。同样,微软的Copilot和Mismtral的LE聊天也表现出可比的价格,约有35%的答案包含虚假索赔。相反,该报告确定了AI聊天机器人的生成不准确信息率最低。观察到拟人化的克劳德(Claude)的速率最低,其中只有10%的响应包含虚假性。 Google的双子座的表现也相对较好,其中17%的答案包含虚假主张。该研究强调了通过困惑AI的虚假产生显着增加。 2024年,Newsguard的研究表明,困惑性AI在其回应中产生了零错误的主张。但是,最近在2025年8月进行的研究显示,有46%的困惑AI答案包含虚假信息。 Newsguard的报告没有指定导致困惑AI反应质量明显下降的根本因素。该报告提到,唯一可用的解释是在讨论聊天机器人的专用Reddit论坛上发现的用户投诉。这些用户担忧表明,困惑性AI响应的准确性和可靠性会降低。与在其他聊天机器人中观察到的波动相反,法国的米斯特拉尔(Mistral)表明产生虚假的率一致。 Newsguard的研究表明,Mistral产生虚假索赔的速度在2024年和当前的报告期间均保持37%。这些最近的发现遵循法国报纸Les Echos先前的报告,该报告调查了Mistral重复虚假信息的趋势。莱斯(Les)Echos发现,米斯特拉尔(Mistral)在58%的英语反应中传播了有关法国,伊曼纽尔·马克龙(Emmanuel Macron)和第一夫人布里吉特·马克龙(Brigitte Macron)的不准确信息,占其法语反应的31%。关于LES ECHOS报告,Mistral将确定的问题归因于其LE聊天助理。该公司表示,与Web搜索相关的LE聊天助理和独立于Web搜索的人员都在促进信息不准确的信息。 Euronews接下来与Newsguard报告中提到的公司联系,寻求对调查结果的评论。截至报告发布时,Next EuroNews尚未收到公司的任何立即回应。 Newsguard的报告还强调了聊天机器人引用外国宣传活动的消息来源的情况。具体而言,该报告提到了聊天机器人引用源自俄罗斯影响力行动的叙述,例如Storm-1516和Pravda。作为例证,该研究研究了聊天机器人对摩尔多瓦议会领导人伊戈尔·格罗苏(Igor Grosu)的主张的回答。该声称声称格罗索“将摩尔多瓦人比作’羊群。 Newsguard的报告发现,Mistral,Claude,Curnection’s Pi,copilot,Meta和困惑重复了关于Igor Grosu的虚假主张,为事实。在某些情况下,这些聊天机器人提供了指向与Pravda网络关联的网站的链接,作为信息的来源。这些发现与AI公司的最新安全性和准确性公告相矛盾。例如,Openai断言其最新的型号Chatgpt-5是“防幻觉的”,这意味着其避免产生虚假或捏造信息的能力。同样,Google关于Gemini 2.5的公告声称推理和准确性功能增强了。尽管有这些保证,Newsguard的报告得出结论,AI模型仍在先前确定的领域表现出缺点。研究结果表明,这些模型努力重复虚假,导航数据空隙,被外国链接的网站欺骗以及处理破坏新闻事件。 Newsguard评估聊天机器人的方法涉及向他们提出10个不同的虚假主张。研究人员采用了三种不同的提示方式:中性提示,领导提示,以虚假主张为前提是真实的,而恶意提示则旨在规避安全护栏。然后,研究人员评估了聊天机器人是重复虚假索赔还是未能通过拒绝回答提示来揭穿它。该评估使Newsguard能够量化不同AI模型传播错误信息的频率。


特色图像信用

Tags: AI聊天机器人特色

Related Posts

JBL 推出 AI 驱动的 BandBox 放大器

JBL 推出 AI 驱动的 BandBox 放大器

23 1 月, 2026
Spotify 推出人工智能驱动的提示播放列表

Spotify 推出人工智能驱动的提示播放列表

22 1 月, 2026
Claude AI 带来 Anthropic 彻底改革招聘测试

Claude AI 带来 Anthropic 彻底改革招聘测试

22 1 月, 2026
人类以新的安全伦理原则彻底修改了克劳德的宪法

人类以新的安全伦理原则彻底修改了克劳德的宪法

22 1 月, 2026
YouTube 将为创作者推出人工智能相似度管理工具

YouTube 将为创作者推出人工智能相似度管理工具

22 1 月, 2026
亚马逊将 Health AI 助手集成到 One Medical 移动应用程序中

亚马逊将 Health AI 助手集成到 One Medical 移动应用程序中

22 1 月, 2026
Please login to join discussion

Recent Posts

  • Barret Zoph 将领导 OpenAI 积极的商业转型
  • Substack 推出 Beta TV 应用程序,进入客厅
  • LiveKit 作为 ChatGPT 语音模式背后的引擎,估值达 10 亿美元
  • 收购 Bending Spoons 后,Vimeo 开始裁员
  • 亚马逊准备新一轮裁员,AWS和Prime Video受到冲击

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.