Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

麻省理工学院的PDDL教学提高Llama-3-8B计划有效性

Emre ÇıtakbyEmre Çıtak
22 9 月, 2025
in 人工智能
Home 消息 人工智能
Share on FacebookShare on Twitter
Google Preferred Source

麻省理工学院计算机科学和人工智能实验室的研究人员开发了PDDL教学,该框架使用逻辑推理和外部验证来改善大型语言模型如何生成多步计划,在特定基准上达到高达94%的有效性。该框架解决了大型语言模型(LLM)的常见失败,以制定逻辑上有效的计划,这听起来很合理,但不正确。 PDDL教学通过将显式状态和动作语义与地面真相检查整合在一起来反驳这一点。通过“错误教育”,训练了模型来解释计划失败,包括不满足的先决条件,不正确的效果,违规框架或未达到的目标。逻辑链链(COT)提示方法还指导该模型逐步推断,从而基于正式的语义产生详细的状态行动状态痕迹,其格式为⟨Sᵢ,Aᵢ₊₁,sᵢ₊₁⟩。为了确保正确性,外部Val计划验证器验证生成计划的每个步骤。该系统可以接收二进制反馈(有效/无效)或详细的反馈,以指定哪些先决条件或效果失败。研究表明,详细的反馈获得了最大的性能增长。 PDDL-Instruct还使用了两个阶段优化过程。第一阶段通过惩罚国家转变错误来优化模型的推理链。然后,第二阶段优化了端任务计划的最终准确性,创建了系统的培训方案。该系统在PlanBench基准测试中进行了评估,该基准包括Blockworld,Mystery Blockworld和物流规划域。神秘的阻碍世界特别具有挑战性,因为它使谓词名称混淆以防止图案匹配。在没有工具支持的情况下,先前的模型在此任务上报告了该任务的有效性小于5%。借助PDDL-Instruct,Llama-3-8B模型在Blockworld上达到了94%的有效计划。在神秘的阻碍世界上,该框架产生了刻板级的改进,据报道,统计量是基线模型的64倍。物流领域还记录了有效计划的大幅增加。在所有域中,与未张开的基线相比,该框架在生成有效计划的绝对改善中均显示出66%的绝对改善。通过在培训期间使用详细的验证器反馈和更长的反馈预算,进一步提高了性能。这种神经符号的方法在自动检查的正式语义中依靠LLM的推理。它的当前范围仅限于经典规划域定义语言(PDDL)域,并且需要Val作为外部甲骨文。该方法显示了可以容纳验证器的代理管道的实用程序,而时间,数字和成本敏感的计划的扩展仍然是开放的挑战。


特色图像信用

Tags: Llama-3-8bpddl-Instruct麻省理工学院

Related Posts

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

3 6 月, 2026
微软推出 Project Solara,打造代理优先的未来

微软推出 Project Solara,打造代理优先的未来

3 6 月, 2026
谷歌将允许网站选择退出人工智能搜索结果

谷歌将允许网站选择退出人工智能搜索结果

3 6 月, 2026
OpenAI 通过企业插件和新站点功能扩展了 Codex

OpenAI 通过企业插件和新站点功能扩展了 Codex

3 6 月, 2026
Meta 修复了导致 Instagram 帐户被接管的人工智能缺陷

Meta 修复了导致 Instagram 帐户被接管的人工智能缺陷

2 6 月, 2026
流行的 Codex 软件包被发现窃取身份验证凭据

流行的 Codex 软件包被发现窃取身份验证凭据

2 6 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.