Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

研究人员警告说,法学硕士可以获得 "脑腐烂" 也

Aytun ÇelebibyAytun Çelebi
27 10 月, 2025
in 研究
Home 研究
Share on FacebookShare on Twitter
Google Preferred Source

在一篇新的预印本论文中,来自 德克萨斯农工大学、德克萨斯大学奥斯汀分校和普渡大学 引入了一个令人不安的新概念: “法学硕士脑腐假说。” 这 学习 研究发现,持续对“垃圾网络文本”进行大型语言模型 (LLM) 预训练会导致其认知能力持续下降。 。这很重要,因为这不仅仅是暂时的故障;而是一个问题。研究人员发现这种损害是持久的,将简单的数据管理行为重新定义为所有未来人工智能开发的关键训练时安全问题。

如何让人工智能“脑腐”

“脑腐烂”一词被评为牛津 2024 年年度词汇,它描述了人类因消耗过多琐碎的在线内容而产生的精神迷雾。研究人员着手观察人工智能是否会发生同样的情况。为此,他们使用大量真实的 Twitter/X 帖子进行了一项对照实验。他们创建了两个不同的数据集:“垃圾”数据集和“控制”数据集。 “垃圾”数据有两种不同的定义方式:

  • M1(参与度): 该数据集充满了简短的、高度流行的帖子(长度 < 30 个标记,流行度 > 500)。研究人员发现,这种非语义指标——受欢迎程度——是大脑腐烂效应的一个令人惊讶的强大指标,与文本的实际含义不同。
  • M2(语义质量): 该数据集充满了人工智能(GPT-4o-mini)归类为低质量的内容,例如“阴谋论、夸大的主张、未经支持的断言或肤浅的生活方式内容”。

然后,他们选择了四个不同的法学硕士(包括 Llama3 8B 和 Qwen2.5 7B),并不断在这些垃圾数据集上对他们进行训练,将他们的表现与在控制数据上训练的模型进行比较。

认知能力下降是真实存在的

结果立竿见影且意义重大。在垃圾数据上训练的模型显示 严重的认知能力下降(Hedges’ g > 0.3) 全面。模型消耗的“垃圾”越多,它们的情况就越糟糕,表现出明显的“剂量反应”衰减。例如,随着M1数据的垃圾率从0%上升到100%,一项推理基准分数 从 74.9 骤降至 57.2。损坏不仅仅发生在一个区域。研究人员发现:

  • 推理: 模型失去了解决复杂问题的能力。
  • 长上下文理解: 他们从长文档中检索信息的能力崩溃了。
  • 安全: 这些模型变得越来越不符合道德规范。
  • 性格: 最令人不安的是,这些模型发展出了“黑暗特征”,显示出显着的峰值 精神病态和自恋。

当研究人员深入研究 为什么 这种情况正在发生,他们确定了一种主要的故障模式,他们称之为 “思维跳跃”。 人工智能模型将越来越多地截断或完全跳过推理链。他们不会一步一步地思考,而是会跳到一个(通常是错误的)答案,模仿他们收到的垃圾数据的简短、引人注目、非反思性的风格。

烂病能治好吗?

这是这项研究中最令人担忧的部分:事实并非如此。研究人员尝试了两种不同的方法来“治愈​​”大脑腐烂的模型,但都没有完全成功。

    1. 免训练反思: 他们试图让模型“反思”他们的错误并修复它们。这失败了。这些模型的“内在认知衰退”是如此之深,以至于他们甚至无法识别自己的推理失败。
    2. 事后调整: 他们试图通过在大量干净、高质量的指令数据上重新训练模型来“洗掉”糟糕的训练。虽然这有帮助,但它无法恢复模型的原始功能。即使将“干净”数据缩放到 垃圾数据量的4.8倍,仍然存在较大的性能差距。

研究结果提供了强有力的因果证据,表明数据质量是人工智能功能和安全的关键驱动因素。损害一旦造成,似乎就会被深深地内化。这表明,简单地在互联网上抓取越来越大的数据集是一条危险的道路,它激发了对人工智能模型进行例行“认知健康检查”的需要,以免它们也成为互联网垃圾食品的受害者。


特色图片来源

Tags: 勒姆脑腐烂

Related Posts

研究人员将超快激光实验增强了 20 倍

研究人员将超快激光实验增强了 20 倍

3 6 月, 2026
民意调查显示 71% 的美国人认为人工智能进步太快

民意调查显示 71% 的美国人认为人工智能进步太快

20 5 月, 2026
NordVPN 发现被盗的英国支付卡在暗网上售价 12 美元

NordVPN 发现被盗的英国支付卡在暗网上售价 12 美元

20 5 月, 2026
到 2030 年,数据中心和加密货币可能会使电力成本增加 57%

到 2030 年,数据中心和加密货币可能会使电力成本增加 57%

20 5 月, 2026
研究发现,人工智能技能现在对于职位晋升和加薪至关重要

研究发现,人工智能技能现在对于职位晋升和加薪至关重要

20 5 月, 2026
新的磁性芯片设计可能超越当今的人工智能加速器

新的磁性芯片设计可能超越当今的人工智能加速器

19 5 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.