人工智能最终正在学习如何像人类一样浏览手机屏幕 – 除了更快,更聪明且令人震惊的练习速度更快。一个新 研究 香港中国大学的Vivo AI实验室和MMLAB项目介绍了一种名为的模型 UI-R1,这重新考虑了如何对AI代理的理解和与图形用户界面(GUI)进行交互的方式。这是一个转折:它不依赖大量数据集或数千个GPU小时。
取而代之的是,UI-R1做一些令人耳目一新的事情。它学习 加强学习(RL)– 不受监督的微调(SFT),这是需要手动标记数据和昂贵的训练周期的标准方法。这意味着不需要为其提供数万个按钮,滚动条或文本框的示例。只需精心选择的136个移动任务,就足以构建一种模型,该模型比许多在现实世界中的屏幕任务上都具有更好的,受过训练的大型训练的模型。
让我们解开为什么重要的原因及其工作原理。
那么UI-R1实际上做什么?
想象这一点:您正在查看电话屏幕的屏幕截图,有人告诉您“点击“后退”按钮。您查看布局,弄清楚后面按钮在哪里,然后点击它。对于人类来说似乎很容易。
现在想象一下培训AI做到这一点。多年来,这意味着训练巨大的多模式模型(可以将图像和文本一起理解的模型)与屏幕上的正确位置相关联。这就是GUI代理人,例如Cogagent,Aria-gui和Os-Atlas所做的事情 – 他们从具有标记为动作和元素示例的庞大数据集中学习。
但是这个过程很慢,昂贵,并且不能很好地概括。当您将AI从电话屏幕移动到桌面界面或Web浏览器时,其性能通常是储罐。这就像训练一只狗去拿一个球,但只在您房子的一个房间里,将其放在外面,而狗却忘记了该怎么做。
UI-R1改变了这一点。它没有试图“记住”成千上万的接口布局,而是学习如何使用强化学习和一个 巧妙的基于规则的奖励系统。
更聪明的奖励系统,不是更大的模型
UI-R1背后的模型称为 QWEN2.5-VL-3B– 一个30亿个参数多模型模型,比游戏中的7B和18B巨人小得多。但是,UI-R1使用RL进行微调,并具有不需要人类反馈的独特奖励系统。
此奖励功能在三件事上判断模型:
- 它选择了正确的动作类型吗? (单击,滚动,返回,打开应用,输入文本)
- 它是否选择了正确的点击位置? (坐标必须属于正确的框)
- 它是否清楚地解释了其推理并提供了有效的最终答案? (使用结构化格式)
这种结构化的反馈循环有助于模型学会随着时间的流逝做出更好的预测。可以将其视为游戏:每次AI都更接近正确的答案时,它会根据这些规则得分,并逐渐弄清楚如何更频繁地赢得胜利。
重要的是,它不仅是学习猜测 – 还学会解释为什么它认为某个按钮是正确的按钮。这是您可以信任操作软件,应用程序和设备的建筑代理的关键。
小数据,大收益
这是事物变得疯狂的地方。 UI-R1仅接受了训练 136个例子– 它仍然表现出色的许多受过监督的模型接受了成千上万的培训。
在类似的基准上 屏幕柱 和 屏幕孔波,哪个测试模型可以识别平台(移动,桌面和Web)的UI元素的能力,UI-R1将接地精度提供到 78.6%,击败诸如Seeclick(以100万个示例训练的训练!)之类的模型,甚至与较大的7b型号的性能相匹配。
它还提出了另一个名为 AndroidControl,在需要预测正确的动作类型和何处应用的地方。 UI-R1用一个 88.5%的平均精度,优于在76,000个例子中训练的模型,这是136个培训任务的荒谬效率。
这就像通过向某人展示10场比赛来教象棋,看着他们击败俱乐部冠军。
为什么这么好?
几件事使UI-R1与众不同:
- 基于规则的奖励:无需标记的数据或人类审稿人。该模型基于简单的结构化规则来得分。
- 强化重复:UI-R1没有记住答案(如在监督培训中),而是学习了概括的策略。
- 仔细选择的数据:团队不只是举办任何训练例子。他们选择了艰苦,多样和高质量的任务。没有填充物。
也许最重要的是,模型不仅盲目地猜测。由于其“推理令牌”和结构化输出格式(
这对AI接口意味着什么?
这可能是新一波通才GUI代理商的开始。我们也许可以构建可以通过任何屏幕,任何设备,任何指令来推理的,而不是为每个应用程序,平台或任务培训定制模型,而是能够构建紧凑型,适应性的模型。
- 对于开发人员,这意味着较低的成本,更少的数据和更快的迭代。
- 适用于用户,这可能意味着更聪明的虚拟助手实际上了解您在屏幕上要做什么。
- 对于研究人员,这是一个证明,具有简单的基于规则的奖励的增强学习不仅是针对游戏和数学问题,而且是界面任务的SFT的真正替代方法。
还早
尽管UI-R1的结果令人印象深刻,但还有更多要做的事情。例如,它仍然需要干净的输入格式和精心编写的提示。它还假设设备屏幕截图和说明是合理地对齐的,这是在基准设置中的安全假设,但在凌乱的现实世界中更棘手。
尽管如此,这是向前迈出的重要一步。
也许最令人兴奋的是,它表明 更聪明的训练比更大的模型– 至少在了解屏幕上的内容并弄清楚如何行动时。
在一个被日益复杂的软件包围的世界中,像UI-R1这样的AI很快可能是代表我们的点击,滚动和敲击的世界,以及精确,原因,几乎没有任何培训。