麦哲伦：通过预测自己的学习来教授自己的AI

大型语言模型（LLM）变得更加聪明，但是有一个大问题：他们不知道如何有效学习。麦哲伦（Magellan）是一个新的AI框架，可以通过预测自己的进步来模仿人类的学习 – 允许它导航巨大的目标空间，而不会陷入太容易或太困难的地方。

由Inria和Mit的研究人员开发，包括Loris Gaven，Thomas Carta，ClémentRomac，CédricColas，Sylvain Lamprier，Olivier Sigaud和Pierre-Yves Oudeyer，“麦哲伦：学习进度的元认知预测指南自动LLM代理在大目标空间中”介绍了一个框架，该框架使AI具有元认知能力 – 基本上是通过练习任务来预测其将有多少改进的技能。这使AI可以以开放式的方式优先考虑学习目标，就像人类在应对新技能时所做的一样。

AI不能很好地确定学习优先级

传统的AI学习方法在广阔的目标空间中挣扎。他们要么：

浪费时间他们已经掌握的任务，进步缓慢。
尝试太困难的目标，导致反复的失败。
需要人类定义的目标类别，效率低下，不会扩展。

另一方面，人类本能地 寻找扩大能力的挑战 没有不可能。麦哲伦将这种类似人类的方法带入了LLM培训。

麦哲伦的工作方式：预测进度，而不仅仅是表现

大多数AI培训系统：

测量过去的表现 （这无助于新目标）。
使用固定的难度评分 （不适合不断变化的能力）。

麦哲伦走更聪明的路线。它动态估计 如果AI实践目标，则有多少AI可以改善目标。 这允许AI模型选择最大化进度的学习任务，而不仅仅是随机尝试事物。

该方法通过称为称为的过程来工作 绝对学习进度（ALP）– 随着时间的推移，AI在给定任务上有多少改进。使用ALP，麦哲伦将目标分为有意义的类别 没有人干预， 让AI跨越相关技能。

LLM性能分数被夸大了：一种新方法显示了真相

教AI像人类一样学习

为了测试麦哲伦，研究人员使用了一个互动的AI环境，称为 小zoo，LLM代理必须学习各种任务 – 例如识别物体，种植植物，甚至与动物互动。

结果很明显：

经过麦哲伦训练的AI胜过所有其他方法，更快地掌握了更多任务。
它概括了，这意味着它可以更有效地应对新的，看不见的挑战。
它不需要人类标记的目标类别，证明其可扩展性。

相比之下，传统的学习方法要么早日或需要 专家定义的目标分组，使它们僵化且效率低下。

为什么这很重要

麦哲伦的最大突破是自我指导的学习。 AI可以根据自己的进步自主确定下一步学习的内容，而不是依靠人工工程师选择目标。这将AI从被动训练转变为积极改善自身，使其成为多个领域的变革性方法。

人工智能助手可以通过识别挣扎的领域来教授自己的新技能，从而增强他们在不干预的情况下适应的能力。在机器人技术中，机器可以通过专注于具有最高学习潜力的任务来完善其能力，从而导致更有效，有能力的自主系统。在教育方面，AI导师可以实时调整课程，不仅是基于过去的表现，而且基于预测的改进，提供更个性化的学习经验。

麦哲伦证明了人工智能可以 考虑自己的学习，使其在开放式环境中更有效。下一步可能是将这种方法X派加到机器人技术，科学发现甚至人类教育等领域之外，将这一方法除外。

特色图片来源： KeremGülen/意识形态图

Tags: LLM 人工智能特色麦哲伦

麦哲伦：通过预测自己的学习来教授自己的AI

Related Posts

科学家发现超过17,000个新物种

GPT-5.2 科学得分超过专家博士基线 92%

为什么 DIG AI 是 2025 年最危险的恶意 AI

研究人员突破离子瓶颈，钠离子电池更接近快速充电

抓住2万亿美元的幽灵：人工智能正在改写金融犯罪规则

法学硕士在英语与中文提示中表现出明显的文化偏见

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

麦哲伦：通过预测自己的学习来教授自己的AI

AI不能很好地确定学习优先级

麦哲伦的工作方式：预测进度，而不仅仅是表现

教AI像人类一样学习

为什么这很重要

Related Posts

科学家发现超过17,000个新物种

GPT-5.2 科学得分超过专家博士基线 92%

为什么 DIG AI 是 2025 年最危险的恶意 AI

研究人员突破离子瓶颈，钠离子电池更接近快速充电

抓住2万亿美元的幽灵：人工智能正在改写金融犯罪规则

法学硕士在英语与中文提示中表现出明显的文化偏见

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us