多年来,Eterna100基准是计算生物学的巨大挑战,这是一组100个复杂的RNA设计难题。现在,一种名为Montparnasse的新算法, 发达 Tristan Cazenave撰写的作品已经实现了许多人认为非常不可能的事情:它解决了整个基准,为合成生物学,医学和纳米技术的新时代带来了新的时代。
RNA设计的复杂艺术
核糖酸或RNA不仅仅是用于DNA的使者。这些多功能分子是无数生物学过程中的关键参与者,从调节基因表达到催化生化反应。它们的功能与它们的三维形状相关,这在很大程度上取决于四个核苷酸碱基的线性序列(腺嘌呤(a),胞嘧啶(C),鸟嘌呤(G)和乌拉西尔(u))在自身上形成稳定的“二级结构”。
“ RNA设计问题”(也称为逆RNA折叠问题)提出了一个诱人的问题:我们可以设计这些A,C,G,U碱基的序列,这些序列可以可靠地折叠成 *预定的 *目标形状?这样做的能力将改变游戏规则。想象一下,将定制RNA分子作为针对靶向药物的微小生物机器,作为复杂生物传感器的组成部分,或作为复杂纳米结构的构件。
Cazenave在他的论文中指出:“具有特定特性的分子设计是与健康有关的重要主题。”
但是,这项设计任务非常复杂。每个位置的四个可能的基础在长度为$ n $的RNA链中,潜在序列($ 4^n $)的数量呈指数增长,创造了一个巨大的搜索空间,即使是中等长的分子,它也很快变得难以管理。找到折叠 *恰到好处 *的数十亿个序列是一个巨大的计算障碍。
ETERNA100基准测试具有100个独特的RNA二级结构(通常以“点式支架”符号表示)为特征,已成为RNA设计算法的探索场。多年来,在这些问题上已经提出了许多复杂的方法,包括自适应随机步行,随机局部搜索和遗传算法。诸如Info-RNA,Modena和Nemo之类的程序与Nemo一起解决了100个问题中的95个。
最近,Greed-RNA作为最先进的计划出现,采用贪婪的初始化和突变策略以及多目标评估,以对潜在的RNA序列进行排序和完善。到目前为止,即使是基于蒙特卡洛树搜索(MCT)和广义嵌套推出策略适应(GNRPA)的强大方法,到目前为止,甚至还没有征服整个基准测试,通常可以解决95个问题。
Tristan Cazenave的Montparnasse框架引入了一系列算法,最终导致明星表演者:** Mognrpalr **(多物镜的广义嵌套推出策略适应,重复有限)。该算法不仅是增量的改进;它代表了搜索策略的重大飞跃。
蒙帕纳斯首先完善了现有想法。它包括MOGRL(多物镜贪婪随机的本地搜索),一种简化而有效的版本的Greed-RNA的本地搜索和PN(渐进性狭窄),该版本在关注最有前途的搜索过程之前巧妙地管理了多个搜索路径。但是真正的突破在于mognrpalr。
Mognrpalr巧妙地结合了GNRPA的优势(将嵌套的推出策略适应与先前的偏见概括)和GNRPALR(通过限制重复来防止搜索停滞)与先前在Greed-RNA中看到的多目标评估标准。将其视为AI,学习以非凡的技能来玩RNA设计游戏:
- 嵌套搜索级别: 该算法探讨了不同抽象水平的溶液。在每个级别上,它都会根据结果提高其策略(或“政策”)的较低级别。这种层次结构方法可以对庞大的序列空间进行更集中,更有效的探索。
- 自适应政策: 对于每个搜索级别,Mognrpalr都保持“策略”,这是与潜在移动相关的一系列权重(即,在特定位置选择特定的核苷酸)。它迭代地完善了这一策略,加强了导致更好的RNA序列的选择(基于基本对距离,集合缺陷等多个标准接近目标结构的序列的选择(那些接近目标结构的序列)。
- 智能竞争: 在最低级别上,“播放”函数逐步构建RNA序列。这不是随机的;它以博学的政策权重和偏见为指导(例如,使用Boltzmann采样(SoftMax函数)偏爱GC对稳定),以概率地选择最佳下一步。选择移动$ m $的概率$ p_m $由$ p_m = frac {e^{w_m+ beta_m}} { sum_k e^{w_k+ beta_k}} $,在$ w_m $的情况下,$ w_m $是politive ange ange and polity with and politive ange and $ beta_m $。
- 有限的重复: 如果第二次找到相同的最佳序列,则GNRPALR的关键创新是在给定级别停止迭代。这样可以防止该算法变得过于确定性并陷入本地Optima,从而鼓励更广泛的探索。
“ Adapt”函数是关键:它修改了策略权重以增强当前级别上最佳的序列,从而增加了该顺序中的移动权重,并与其游戏概率成比例地减少了其他序列。这种在线学习使Mognrpalr可以在搜索空间的有前途的区域中快速零。
当反对Eterna100 V1问题时,Mognrpalr的真正力量变得很明显。 Cazenave报告说,通过并行运行200个Mognrpalr流程,**所有100个问题都在不到一天的时间内解决。**这是具有里程碑意义的成就。
本文强调了Eterna最臭名昭著的难题的表现:
- 问题99(“射击星”): Mognrpalr在200次运行中的120次(成功率60%)中解决了这一难题。与之形成鲜明对比的是,强大的先前竞争者Greed-RNA仅管理了6种成功的解决方案(3%)。来自Montparnasse套件的MOGRL和PN算法分别显示出9.5%和14%的中间成功率。
- 问题90(“ Gladius”): 众所周知的结构。经过一天的计算,Mognrpalr发现了多种解决方案,而Greed-RNA未能找到任何解决方案,其最佳尝试仍然是远离目标的2个基础对。
- 问题100(“ Teslagon”): 另一个艰难的案例,Mognrpalr显着超过了贪婪RNA,发现了更多的解决方案。
这些结果不仅表明了逐步增长,还表明了能力的质量转变。 Mognrpalr能够导航RNA折叠的复杂能量景观,并始终为各种目标结构找到最佳或近乎最佳的序列。
Montparnasse框架,尤其是其Mognrpalr算法,代表了应用于基本生物学问题的复杂搜索技术的胜利。