Google的AI研发实验室DeepMind揭开了Alphaevolve,这是一种AI系统,旨在通过“机器分级”解决方案解决数学和科学问题的复杂问题。该系统利用“最先进的”模型,特别是双子座模型来生成,批评和评估给定问题的可能答案。
Alphaevolve引入了一种通过使用自动评估系统来减少AI模型中幻觉的机制。该系统得分为精度得分,使其能够在可以自我评估的问题上有效地工作,尤其是在计算机科学和系统优化等领域。

利用 alphaevolve,用户必须提供问题声明以及可选的详细信息,例如说明,方程式和相关文献。他们还必须提供一种机制,以自动评估系统的答案,通常以公式的形式。该系统的能力仅限于将解决方案描述为算法,从而使其不适合非数字问题。
在基准测试中,在包括几何学和组合物种在内的各个分支机构中呈现了大约50个数学问题。该系统成功地“重新发现”了最著名的时间,有75%的时间在20%的情况下发现了改进的解决方案。 DeepMind还将Alphaevolve应用于实际问题,例如优化Google的数据中心效率和加快模型培训的运行。
视频:Google DeepMind
根据 深态,Alphaevolve产生了一种算法,该算法平均收回了Google全球计算资源的0.7%,并建议优化,将培训Gemini模型的总体时间降低了1%。尽管Alphaevolve并没有做出突破性的发现,但据称可以节省时间并释放专家以专注于更关键的任务。
DeepMind计划在考虑更广泛的推出之前构建用于Alphaevolve的用户界面,并为选定的学者启动早期访问程序。实验室断言,Alphaevolve的功能使其成为领域专家的宝贵工具。