分子动力学(MD)模拟是现代化学和生物学的基石,但是自动化它们一直是一个挑战,直到现在。
罗切斯特大学和Futurehouse Inc.的研究人员,包括Quintina Campbell,Sam Cox,Jorge Medina,Brittany Watterson和Andrew D. White,已经介绍了MDCrow:自动化分子动力学工作流,其大型语言模型(一种大型语言模型) – AI驱动的代理使用大语言模型(LLMS)简化复杂的MD任务。
MDCrow整合 40个专家设计的工具 要处理MD工作流程的每个步骤 – 从准备输入文件到运行模拟并分析结果。与以前仅限于特定软件生态系统的尝试不同,MDCROW是为广泛适应性而设计的。它雇用 经过思考的推理 与工具进行动态互动,优化工作流,而无需大量的人类干预。
自动化MD模拟的挑战
MD模拟需要 细致的参数调整,从选择力场到管理复杂的预处理和后处理步骤。虽然计算进步提高了可访问性,但 完全自动化仍然难以捉摸 由于涉及高度专业化的决策。以前的努力,例如Radonpy和Pyautofep,集中在狭窄的域或所需的刚性工具集成上。 mdcrow通过 将LLM的适应性与专门的MD工具相结合,创建一个可以在不同科学应用程序中概括的系统。
mdcrow的工作原理
使用 兰链框架和反应式提示,mdcrow用作 自主选择并执行操作的LLM驱动的助手 在受控环境中。它与四个关键领域的工具互动:
- 信息检索:访问文献,数据库和蛋白质结构,以告知仿真参数。
- PDB和蛋白质处理:清洁和处理PDB文件以进行分子模拟。
- 模拟执行:使用OpenMM运行MD模拟,自动处理错误。
- 分析与可视化:从模拟输出中产生见解,包括结构分析和稳定性评估。
关键创新是MDCrow的能力 动态适应任务复杂性。无论是进行简单的结构清理还是通过复杂的分析进行多步仿真,该系统都根据过去的结果和实时反馈来完善其方法。
基准测试mdcrow
为了评估MDCrow的功能,研究团队对其进行了测试 25个复杂性增加的任务,比较其在不同LLM的性能,包括 GPT-4O,LLAMA3-405B和Claude-3 Opus。
结果令人惊讶:
- 由GPT-4O支持的MDCrow成功完成了72%的任务,远远超过标准LLM设置。
- Llama3-405b是一种开源替代方案,达到了68%的完成,证明可行的非专有解决方案。
- 没有MDCROW的专业工具的基本LLM只能达到28%的精度,强调专家设计的工作流的重要性。
- 及时的样式对高性能模型的影响很小 但是显着影响了较弱的弱者,强大了在复杂的科学任务中需要结构化推理的需求。
mdcrow代表 迈向完全自主分子模拟的重要一步,但其影响范围超出了MD工作流程。经过 使AI可以处理复杂的多步计算任务,mdcrow展示了LLM如何用作 科学助理,跨化学,材料科学和生物工程的发现加速。
该研究还表明了 人类合作。尽管MDCrow自动化例程流程,但其交互式“聊天”功能使科学家能够 实时完善工作流程,引导AI解决更复杂的问题。
该研究是开源的,代码可在 github。
特色图片来源: KeremGülen/Midjourney