如果自动执行桌面不是关于脚本点击模式,而是要为您的操作系统提供一个智能的代理团队,该怎么办?那是背后的核心想法 UFO2,微软最新的开源系统可以超越当前使用计算机的代理(CUA),并将自动化重新发明为一流的OS抽象。它将您的桌面变成一个智能控制面板,在该面板中,语言驱动的任务在本地,可靠地执行,并且对工作流程的干扰最小。
RPA系统(例如RPA系统)的传统桌面自动化工具一直在稳健性。 UI的小更改可能会破坏整个脚本。 CUAS试图通过大型语言模型和屏幕截图分析来解决此问题,但它们仍然受到浅层系统集成和笨拙的用户体验的限制。 UFO2通过从操作系统向上构建来翻转此模型。它介绍了一个多重体系结构 中央宿主 坐标专业 宣传员 对于不同的应用。每个代理商都通过API和UI元数据说应用程序的母语,而不仅仅是像素。

UFO2的主要技术创新之一是其混合动作模型。每个appagent都可以在可用时调用真实的API,而不仅仅是单击按钮。这意味着诸如导出电子表格或格式化文本之类的任务从多步gui舞减少为单个原子函数调用。该系统还推测了提前 – 使用单个LLM调用来计划多个步骤并使用Windows UI数据验证每个步骤。这 投机性多动作执行 大幅度降低了延迟,而不会冒险正确。
隔离而不会中断
CUA通常会劫持桌面,在执行过程中锁定鼠标和键盘。 UFO2的 图片中的图片(PIP) 模式使用虚拟桌面窗口并行运行自动化任务。当您继续在主题中工作时,代理商在沙盒环境中做事。它是无缝的,安全的,并使用本机Windows RDP环回back来维护会话完整性。

UFO2将帮助文档和执行记录集成到检索仪的内存中,并通过程序知识丰富其提示。随着时间的流逝,这会创建一个自我提高的代理,在不进行重新培训的情况下,在新任务上会变得更好。每个appagent都从文档,补丁说明和事先运行中提取以做出更明智的决策。这是一个具有内存的自动化系统,而不仅仅是响应生成。
在针对OpenAI的操作员和其他顶级CUA的正面基准测试中,UFO2始终优于表现。在OSWorld-W基准测试中,使用O1模型达到32.7%的成功率,超过了运营商的14.3%。它的投机计划可将行动步骤降低多达50%。混合控制检测(将UIA API和视力解析组合)恢复了以前失败的相互作用的25%。简单地说, UFO2不仅聪明,而且在系统上更好。
现在一切都是代理人
扩展性被烘烤。UFO2允许将第三方工具(包括操作员等其他CUA)作为app绕。这意味着您可以将专门的副本或专有自动化后端整合到UFO2生态系统中,而无需再培训或重写代码。它还支持用于企业部署的客户服务器体系结构,使编排集中和用户设备轻巧。
该论文概述了未来的目标,包括通过类似的可访问性API与MACOS和Linux的跨平台兼容性,通过较小的LLMS更快的响应以及从专用的GUI Itteraction数据集进行了改进的推理。但是即使在当前状态下,UFO2也代表 桌面自动化的新基线。它是开源的,已经超过了商业系统,并将新的模块化,可靠性和智能带给人类计算机的互动。
对于建立下一代智能代理商的任何人,或者只是厌倦了脆弱的脚本 –ufo2可在github上找到 及其文档。
特色图像信用