大型语言模型(LLM)变得更加聪明,但是有一个大问题:他们不知道如何有效学习。麦哲伦(Magellan)是一个新的AI框架,可以通过预测自己的进步来模仿人类的学习 – 允许它导航巨大的目标空间,而不会陷入太容易或太困难的地方。
由Inria和Mit的研究人员开发,包括Loris Gaven,Thomas Carta,ClémentRomac,CédricColas,Sylvain Lamprier,Olivier Sigaud和Pierre-Yves Oudeyer,“麦哲伦:学习进度的元认知预测指南自动LLM代理在大目标空间中”介绍了一个框架,该框架使AI具有元认知能力 – 基本上是通过练习任务来预测其将有多少改进的技能。这使AI可以以开放式的方式优先考虑学习目标,就像人类在应对新技能时所做的一样。
AI不能很好地确定学习优先级
传统的AI学习方法在广阔的目标空间中挣扎。他们要么:
- 浪费时间他们已经掌握的任务,进步缓慢。
- 尝试太困难的目标,导致反复的失败。
- 需要人类定义的目标类别,效率低下,不会扩展。
另一方面,人类本能地 寻找扩大能力的挑战 没有不可能。麦哲伦将这种类似人类的方法带入了LLM培训。
麦哲伦的工作方式:预测进度,而不仅仅是表现
大多数AI培训系统:
- 测量过去的表现 (这无助于新目标)。
- 使用固定的难度评分 (不适合不断变化的能力)。
麦哲伦走更聪明的路线。它动态估计 如果AI实践目标,则有多少AI可以改善目标。 这允许AI模型选择最大化进度的学习任务,而不仅仅是随机尝试事物。
该方法通过称为称为的过程来工作 绝对学习进度(ALP)– 随着时间的推移,AI在给定任务上有多少改进。使用ALP,麦哲伦将目标分为有意义的类别 没有人干预, 让AI跨越相关技能。
教AI像人类一样学习
为了测试麦哲伦,研究人员使用了一个互动的AI环境,称为 小zoo,LLM代理必须学习各种任务 – 例如识别物体,种植植物,甚至与动物互动。
结果很明显:
- 经过麦哲伦训练的AI胜过所有其他方法,更快地掌握了更多任务。
- 它概括了,这意味着它可以更有效地应对新的,看不见的挑战。
- 它不需要人类标记的目标类别,证明其可扩展性。
相比之下,传统的学习方法要么早日或需要 专家定义的目标分组,使它们僵化且效率低下。
为什么这很重要
麦哲伦的最大突破是自我指导的学习。 AI可以根据自己的进步自主确定下一步学习的内容,而不是依靠人工工程师选择目标。这将AI从被动训练转变为积极改善自身,使其成为多个领域的变革性方法。
人工智能助手可以通过识别挣扎的领域来教授自己的新技能,从而增强他们在不干预的情况下适应的能力。在机器人技术中,机器可以通过专注于具有最高学习潜力的任务来完善其能力,从而导致更有效,有能力的自主系统。在教育方面,AI导师可以实时调整课程,不仅是基于过去的表现,而且基于预测的改进,提供更个性化的学习经验。
麦哲伦证明了人工智能可以 考虑自己的学习,使其在开放式环境中更有效。下一步可能是将这种方法X派加到机器人技术,科学发现甚至人类教育等领域之外,将这一方法除外。
特色图片来源: KeremGülen/意识形态图