麻省理工学院计算机科学和人工智能实验室的研究人员开发了PDDL教学,该框架使用逻辑推理和外部验证来改善大型语言模型如何生成多步计划,在特定基准上达到高达94%的有效性。该框架解决了大型语言模型(LLM)的常见失败,以制定逻辑上有效的计划,这听起来很合理,但不正确。 PDDL教学通过将显式状态和动作语义与地面真相检查整合在一起来反驳这一点。通过“错误教育”,训练了模型来解释计划失败,包括不满足的先决条件,不正确的效果,违规框架或未达到的目标。逻辑链链(COT)提示方法还指导该模型逐步推断,从而基于正式的语义产生详细的状态行动状态痕迹,其格式为⟨Sᵢ,Aᵢ₊₁,sᵢ₊₁⟩。为了确保正确性,外部Val计划验证器验证生成计划的每个步骤。该系统可以接收二进制反馈(有效/无效)或详细的反馈,以指定哪些先决条件或效果失败。研究表明,详细的反馈获得了最大的性能增长。 PDDL-Instruct还使用了两个阶段优化过程。第一阶段通过惩罚国家转变错误来优化模型的推理链。然后,第二阶段优化了端任务计划的最终准确性,创建了系统的培训方案。该系统在PlanBench基准测试中进行了评估,该基准包括Blockworld,Mystery Blockworld和物流规划域。神秘的阻碍世界特别具有挑战性,因为它使谓词名称混淆以防止图案匹配。在没有工具支持的情况下,先前的模型在此任务上报告了该任务的有效性小于5%。借助PDDL-Instruct,Llama-3-8B模型在Blockworld上达到了94%的有效计划。在神秘的阻碍世界上,该框架产生了刻板级的改进,据报道,统计量是基线模型的64倍。物流领域还记录了有效计划的大幅增加。在所有域中,与未张开的基线相比,该框架在生成有效计划的绝对改善中均显示出66%的绝对改善。通过在培训期间使用详细的验证器反馈和更长的反馈预算,进一步提高了性能。这种神经符号的方法在自动检查的正式语义中依靠LLM的推理。它的当前范围仅限于经典规划域定义语言(PDDL)域,并且需要Val作为外部甲骨文。该方法显示了可以容纳验证器的代理管道的实用程序,而时间,数字和成本敏感的计划的扩展仍然是开放的挑战。





