微软发布UFO² AgentOS:深度集成Windows的桌面智能体

图片

这篇引人瞩目的论文,其第一作者是来自微软 DKI 团队的 Chaoyun Zhang。他不仅是 Windows 平台首个智能体系统——UFO 的核心开发者(该项目在 GitHub 上已斩获约 7,000 Stars,在开发者社区中激起了热烈反响),同时也是一篇长达 90 余页的 GUI Agent 领域综述文章的主要执笔人,对该领域的关键进展与技术框架进行了系统性的梳理。项目的其他主要贡献者同样来自微软 DKI 团队,均拥有深厚的研究底蕴和丰富的工程实践经验。

图片

GUI 自动化的演进与挑战

近年来,图形用户界面(GUI)自动化技术正悄然重塑我们与计算机交互及日常办公的方式。然而,以机器人流程自动化(RPA)为代表的传统自动化工具,往往因其依赖固定脚本而显得力不从心,不仅对界面变化极为敏感,维护成本高昂,用户体验也难尽如人意。

与此同时,基于大型语言模型(LLM)的新一代计算机智能体(Computer-Using Agents, CUA)虽然崭露头角,展现出灵活自动化的巨大潜力,但多数方案仍徘徊在概念验证或原型阶段,未能与操作系统实现深度融合,这极大地限制了它们在真实工作场景中的规模化应用。

UFO² AgentOS:桌面智能体的新纪元

洞察到这些行业瓶颈,微软研究团队近日隆重推出并开源了业界首个深度集成 Windows 操作系统的桌面智能体平台 —— UFO² AgentOS。作为其前代纯 GUI 桌面智能体 UFO 的一次全方位革新,UFO² 不仅继承了 UFO 强大的 GUI 操作能力,更在系统层面进行了深度优化,显著提升了智能体在 Windows 环境下的操作效率与稳定性。

图片

图 - 1:传统 CUA 与 AgentOS UFO² 对比示意图

什么是 UFO²:深度 OS 集成的桌面智能体?

UFO² 远不止是一款传统的桌面自动化工具。它是一种革命性的智能体框架,其核心理念——“AgentOS”,致力于将智能体深度融入操作系统肌理,从根本上破解传统智能体在界面交互脆弱性、任务执行易中断等方面的核心难题。

为了实现这一目标,UFO² 引入了精巧的多智能体架构:

  • HostAgent:作为中央协调者,负责对自然语言任务进行精准解析,并将其巧妙地分解为一系列可执行的子任务。
  • AppAgent:为每一个应用程序量身打造,提供定制化的 API 接口、敏锐的界面感知以及流畅的交互能力。

这种双Agent协同工作的模式,确保了任务能够被精确分解并灵活执行,更重要的是,它天然支持跨应用程序的复杂任务流,从而显著提升了系统的可扩展性与执行效率。

具体而言,UFO² 在以下几个核心维度实现了关键突破,而这些突破无不依赖于其与 Windows 系统的深度集成:

统一 GUI–API 混合执行:兼顾效率与通用性

传统的 API 执行虽然精准高效,但通常需要为特定应用程序定制接口,导致覆盖范围受限;而 GUI 执行方式则更为通用灵活,却也因步骤冗长而易受界面变动干扰。UFO² 独辟蹊径,将 API 与 GUI 这两种执行范式巧妙融合,通过统一的 Puppeteer 接口,实现了两种执行模式的动态智能选择。

在实际任务执行过程中,UFO² 能够智能地依据当前操作环境与任务特性,自主判断:

  • 何时应优先利用 API 执行,以追求极致的速度与精准度。
  • 何时在 API 不足以胜任任务时,灵活切换至 GUI 操作。

这种动态调整机制,使得 UFO² 在效率与通用性之间取得了近乎完美的平衡,进而显著提升了任务执行的稳定性与鲁棒性。

图片

图 - 2:GUI-API 操作的混合统一接口设计

混合控件感知:看得更准,识得更全

UFO² 实现了与 Windows 系统的深度融合。它巧妙地结合了 Windows 原生的 UI Automation(UIA)接口与先进的视觉识别模型 OmniParser-v2,从而实现了对界面元素的混合检测与精准感知。这种“双剑合璧”的方式,既克服了传统视觉识别在准确性上的不足,也弥补了单纯依赖系统 API 时检测范围有限的瓶颈。

在实际应用中,尤其面对界面复杂、控件高度自定义或标准化程度不足的场景,UFO² 的混合感知能力能够有效提升控件识别的准确率与覆盖范围,为任务的稳定鲁棒执行提供了坚实保障。

图片

图 - 3:基于 UIA API 和 OmniParser-v2 的融合控件检测机制

持续增强的动态知识集成:让智能体“越用越强”

UFO² 采用了先进的检索增强生成(Retrieval Augmented Generation, RAG)技术,构建了一个能够持续学习的知识库。该知识库动态整合了外部应用程序的官方文档以及智能体自身的历史执行日志,使得智能体能够实时获取最新的应用操作方法和最佳实践经验。这项技术确保了智能体在应用程序功能更新或版本迭代后,能够迅速适应变化,保持高效的执行能力。

借助于此,UFO² 不仅能更精准地理解和执行复杂任务,有效减少因知识陈旧导致的操作失败,还能从过往的成功经验中学习,持续优化任务完成的准确性与效率,真正实现了“越用越强”的智能进化。

图片

图 - 4:动态检索外部应用文档和历史执行日志以增强智能

高效的推测式多步执行:大幅降低 LLM 调用成本

为了有效降低对大型语言模型(LLM)的调用频率,从而减少延迟和计算开销,UFO² 创新性地引入了推测式多步预测机制。在该机制下,智能体通过一次 LLM 调用即可预测出后续的多个操作步骤,并通过实时的界面状态校验来逐步验证和执行这些步骤。

这种前瞻性的执行策略,极大地降低了智能体执行任务时的延迟和计算成本。实验数据令人振奋:推测式多步执行技术可将 LLM 调用次数减少高达 51.5%,显著提升了任务执行速度和系统响应能力,使得智能体能够更流畅、更高效地完成复杂的任务序列。

图片

图 - 5:推测式多步执行与验证流程示意

无干扰的 PiP 虚拟桌面执行环境:专注工作,智能并行

UFO² 引入了一项极具创新性的画中画(Picture-in-Picture, PiP)虚拟桌面技术。通过深度利用 Windows 原生的远程桌面服务,UFO² 能够创建一个轻量级、独立且安全的虚拟桌面环境。所有智能体的任务执行都在这个隔离的虚拟环境中进行,从而彻底避免了与用户主桌面的任何交互干扰。

这意味着,用户可以在智能体高效执行复杂任务的同时,安心继续进行自己的其他重要工作,无需担心智能体的操作会打断自己的思路或影响当前桌面。这一贴心设计极大地提升了智能自动化的用户接受度与实际使用体验。

图片

图 - 6:UFO² 画中画(PiP)的虚拟执行环境,实现无扰操作

实践检验:20+ 主流应用测试,全方位领先

在严格的基准测试中,UFO² 在超过 20 款主流 Windows 应用程序(如 Excel、Outlook、Edge 等)上接受了全面的能力验证,结果斐然:

  • 任务成功率显著提升:仅采用 GPT-4o 模型,UFO² 的任务成功率相较于业界领先的 OpenAI Operator 提升了超过 10%
  • LLM 调用频率大幅降低:尤为值得强调的是,UFO² 的推测式多步执行技术,成功将大模型调用(LLM call)的频率降低了多达 51.5%,这直接带来了任务响应速度和系统整体效率的巨大飞跃。

图片
图 - 7:实验结果对比,UFO² 表现优异

全面开源,共筑桌面智能新时代

微软团队深知开源的力量,现已将 UFO² 的全部源代码和详尽的技术文档向全球开发者社区开放,热忱欢迎广大开发者们加入到这场共建与创新的浪潮中来。

UFO² 的发布,不仅标志着桌面智能体技术真正迈入了系统级的“AgentOS 时代”,更为未来智能办公、智能人机交互的蓬勃发展树立了一座重要的里程碑。微软期待通过 UFO²,与全球开发者携手,共同打造一个更加智能、稳定、高效的桌面智能生态系统。

我们诚邀各界人士关注、试用 UFO² 并积极提供反馈,让我们一同推动桌面自动化与智能交互技术的下一次革命!