像 ChatGPT 这样的大型语言模型有一个根本问题:它们是静态的。他们接受了海量数据的训练,然后时间被冻结,就像一本 2023 年印刷的教科书,对 2024 年一无所知。 麻省理工学院不可思议的人工智能实验室 有 开源的 一个可以改变这种状况的新框架。他们的论文发表在最近的 NeurIPS 2025 会议,推出了一个名为 自适应语言模型 (SEAL)。核心思想很简单,但影响巨大:人工智能学会 自学。 SEAL 不是仅仅被动地保存信息,而是使模型能够生成自己的高质量训练数据,然后使用该数据永久更新自己的权重。这很重要,因为这是远离静态的“万事通”机器人,迈向能够随着时间的推移实际进化、适应和整合新信息的人工智能模型的第一步。
为什么人工智能模型是坏学生
现在,如果你想让法学硕士学习一个新事实,你有两个不好的选择。您可以将信息“填充”到其上下文窗口(提示)中,但在对话重置时它会忘记这一事实。或者,您可以执行大规模、昂贵的再培训,这就像重新印刷整个百科全书只是为了添加新条目。这两种方法都不是真正的学习。麻省理工学院的团队,包括 Adam Zweiger、Jyothish Pari 和 Pulkit Agrawal,研究了人类如何学习。当学生准备考试时,他们不仅仅是重读课本 50 遍。一个好学生 重写 信息、制作抽认卡、总结章节并创建自己的笔记。这种重新格式化和吸收信息的过程将信息巩固在他们的大脑中。海豹突击队就是为了成为好学生而设计的。它学会获取新信息的“原始教科书”并生成自己的“学习笔记”——论文称之为 “自我编辑”——采用对其自身学习最有效的任何形式。
那么,它是如何学会“学习”的呢?
它使用一种称为强化学习的过程,通过反复试验来学习。把它想象成一个人工智能举办自己的学习课程。
- 吸取教训: 人工智能获得一条新信息(例如一段文本)。
- 写下注释: 它生成一个“自我编辑”——它自己对该信息的合成注释。这可以是一个关键含义列表、一组问答对,或者只是一个简单的摘要。
- 参加测验: 人工智能对其进行了短暂的微调 自己的笔记 然后立即对新信息进行小测验。
- 获取等级: 如果它通过了测验,它就会获得“奖励”。这种积极的反馈告诉模型,它刚刚编写的“自我编辑”笔记是高质量且有效的。
- 更聪明地学习: 如果失败,它就会知道自己的笔记很糟糕,并在下次尝试不同的格式。经过数千个这样的循环,人工智能不仅学习新的事实,而且还学习新的知识。它 学会如何学习 更有效地了解新事实。
结果如何?
研究人员在两个关键领域对海豹突击队进行了测试,结果令人震惊。首先,他们测试了它吸收新知识的能力。他们给了模型文本段落并对其内容进行了测验。在使用海豹突击队进行自我训练后,人工智能的准确率跃升至 47.0%。关键在于:这个分数 优于更大、更强大的 GPT-4.1 生成的合成数据,得分仅为46.3%。在这个特定的任务中,较小的模型实际上自学比其巨大的竞争对手“更聪明”。其次,他们通过几个例子测试了它学习新技能的能力。这是一个众所周知的硬抽象推理基准,称为 ARC。海豹突击队的工作不仅仅是解决谜题,而是产生 最佳学习策略 对于它自己(例如,“使用这些数据增强”,“设置这个学习率”)。自适应人工智能找到了成功的策略 72.5% 的时间。没有这种自学习功能的基线模型会失败,只有 20% 的成功率。
有什么问题吗?
这一切听起来不错,但实用主义者应该问一下其缺点。研究人员对这些限制是透明的。
- 灾难性遗忘: 该模型仍然面临着“灾难性遗忘”这一经典的人工智能问题。当它为了新的考试而死记硬背时,它开始忘记在期中考试中学到的东西。学习新的事实仍然可以覆盖旧的事实。
- 它的速度慢得令人痛苦: 这个过程并不快。研究人员指出,计算开销是“巨大的”。它需要 30-45秒即可获得A级 单身的 自编辑 在训练循环期间。
- 它需要一个答案: 当前的系统依靠具有正确答案的“测验”来提供最重要的奖励信号。
尽管存在这些障碍,该团队仍在展望未来。专家预测,到 2028 年,我们将用完高质量的人工生成文本来训练人工智能。当我们遇到“数据墙”时,进展将取决于模型生成自己的高效训练数据的能力。这项研究是其运作方式的关键路线图,为未来的人工智能“代理”铺平了道路,这些“代理”不仅能回答你的问题,还能积极地从与世界的互动中学习,并每天变得更加聪明。





