最近 学习 帕斯卡·萨格(Pascal J.超越了他们的聊天机器人阶段。
AI代理商正在以怪异的精度进行演出,单击,滚动和打字。这些基于指令的计算机控制代理(CCA)可以执行命令,与经验丰富的人类操作员等数字环境进行交互。但是,随着它们更接近完全自主权,一件事变得很清楚:我们给它们的力量越多,控制它们就越难。
AI代理如何学习使用像您这样的计算机
传统的自动化工具是荣耀的宏 – 在其脚本道路之外进行了反对,僵硬和无知。另一方面,CCA是为即兴创造的。他们不仅遵循指示;由于视觉模型(VLM)和大型语言模型(LLMS),他们根据自己在屏幕上的“看到”观察,解释和行动。这使他们可以:
- 像人类一样阅读屏幕,识别没有预定义坐标的文本,按钮和输入字段。
- 执行多步任务,就像打开电子邮件,复制数据,将其粘贴到电子表格中并击中发送一样 – 无需直接监督。
- 了解自然语言说明,消除对用户学习复杂自动化脚本的需求。
- 适应更改界面,使其比基于规则的自动化工具更灵活。
告诉CCA“查找当今的最高销售线索并通过电子邮件发送后续措施”,然后通过应用程序移动,提取相关数据,撰写电子邮件并将其发送给人类助手。与当UI发生变化时散落的老式RPA(机器人过程自动化)不同,CCA可以实时调整,识别视觉元素并即时做出决策。
下一个边界?与基于云的知识存储库和自主决策的集成。这些特工学到的越多,它们的能力就越复杂,就提出了有关我们应该对它们放置多少信任的问题。
好处:生产力,可及性和自动化
不可否认的是,CCA具有严重的优势:
- 类固醇的生产力:乏味,耗时的任务消失,使工人可以专注于高价值的决策,而不是单击仪表板。
- 可访问性革命:残疾人可以通过AI驱动的导航和任务自动化更加无缝地与技术交互。
- 企业范围的可扩展性:企业可以自动化整个工作流程,而无需雇用IT专家的军队来构建定制解决方案。
- 全系统整合:CCA在不同的平台和应用程序上工作,以确保无缝的数字交互。
- 始终在效率上:与人类工人不同,这些代理商不会感到疲倦,分心或休息午餐。
风险:隐私,安全和信任
对于每一次生产力胜利,背景中都有相同和相反的安全噩梦。对用户界面进行AI的控制不仅仅是自动化,还可以授予对敏感工作流,金融交易和私人数据的不闪烁的机器访问。这就是事情变得复杂的地方。
CCA通过“观看”屏幕和分析文本来操作。谁确保敏感信息不会被滥用或登录?谁在检查AI驱动的击键?
如果AI代理可以登录您的银行应用程序并使用单个命令转移资金,那么如果被黑客入侵会怎样?我们正在以很少的保障将数字钥匙移交给王国。如果CCA犯了灾难性的错误 – 丢失错误的文件,发送错误的电子邮件或批准灾难性交易 – 谁负责?人类可以被解雇,罚款或训练。人工智能?不多。
而且,如果恶意演员劫持了CCA,他们不仅可以访问 – 他们获得了一个不懈的自动同谋,能够大规模造成破坏。立法者正在争先恐后地跟上,但是没有剧本可以实时实时做出高风险决策。
接下来是什么?
企业正在谨慎行事,试图平衡不可否认的效率提高与迫在眉睫的风险。一些公司正在执行“人类在循环”模型中,在该模型中,AI代理人处理执行,但需要手动批准进行关键行动。其他人正在投资AI治理政策,以在这些代理商成为企业业务的标准之前建立保障措施。
可以肯定的是,CCAS并不是一个过往的趋势 – 它们是AI进化的下一阶段,将自己悄悄地嵌入到各地的工作流程和界面中。随着它们变得越来越有能力,辩论不是关于我们是否应该使用它们,而是我们如何控制它们。