下一代Windows曝光?微软发布二代「桌面AgentOS」UFO²,还有画中画功能

由多模态大语言模型(LLM)驱动的 Computer-Using agent(CUA),为通过自然语言实现复杂桌面工作流程自动化提供了一个前景广阔的方向。

然而,当前大多数 CUA 仍处于概念验证阶段,受限于对操作系统集成程度低、依赖屏幕截图的交互方式不稳定,以及执行过程易打断用户操作等问题,难以实际落地。

为此,微软推出了一款面向 Windows 桌面的多 agent AgentOS——UFO²,其通过投机性多行动规划进一步提高了运行效率,减少了每一步的 LLM 开销。同时,画中画(PiP)界面实现了隔离虚拟桌面内的自动化,使 agent 和用户能够同时操作而不受干扰。

论文链接:https://arxiv.org/abs/2504.14603

在 20 多个真实 Windows 应用程序中的评估表明,与之前的 CUA 相比,UFO² 在鲁棒性和执行准确性方面都有大幅提高。

研究团队表示,深度 OS 集成是实现可靠、高效且符合用户预期的桌面自动化的重要路径。

UFO²:面向 Windows 桌面的 AgentOS

据论文介绍,UFO² 被设计用于无缝理解自然语言用户请求,并能够在多种 Windows 应用程序中稳定可靠地自动执行任务。该 OS 系统以本地守护进程的形式部署,用户只需发出自然语言指令,即可被转化为跨多个 GUI 应用程序的协调工作流。UFO² 提供了一套核心抽象,用于任务协调、过程内省、执行控制以及 agent 协作,并将这些抽象以类似传统操作系统的系统级服务形式呈现。

图|UFO²的架构总览

UFO² 包括一个负责任务拆解与协调的集中式 HostAgent,以及一组针对具体应用场景设计的 AppAgent。AppAgent 拥有原生 API 接口、领域知识支持,以及统一的 GUI–API 操作抽象层,从而在保持模块化与可扩展性的同时,实现稳定可靠的任务执行能力。

Hostagent:系统级编排和执行控制

作为 UFO² 的集中控制平面,HostAgent 负责解释用户指定的目标,将其分解为结构化的子任务,实例化和调度 AppAgent 模块,并在整个系统中协调它们的进程。它为反省、规划、应用生命周期管理和多智能体同步提供系统级服务。

HostAgent 在本机 Windows 底层运行,它可以监控活动应用程序,根据需要发出 shell 命令以生成新进程,并管理特定于应用程序的 AppAgent 实例的创建和删除。所有协调工作都是通过持久状态机进行的,该状态机负责管理各执行阶段的转换。

图|HostAgent 作为控制平面协调器的高层架构。

Appagent:应用程序专用执行运行时

AppAgent 是 UFO² 的核心执行运行时,负责执行特定 Windows 应用程序中的各个子任务。每个 AppAgent 都是由中央 HostAgent 启动和协调的一个独立的应用程序专用工作进程。与统一处理所有 GUI 上下文的单片式 CUA 不同,每个 AppAgent 都是为单个应用程序量身定制的,并且在运行时深入了解其 API 表面、控制语义和领域逻辑。

HostAgent 接收到子任务和执行上下文后,AppAgent 会初始化一个 ReAct 风格的控制循环,在此循环中,AppAgent 会迭代地感知当前的应用状态,推理下一步的操作,并执行基于 GUI 或 API 的操作。这种通过 Puppeteer 接口实现的混合执行层,通过在可用时优先使用结构化 API,同时在必要时保留对基于 GUI 的交互的回退,实现了对动态和复杂用户界面的可靠控制。

图|AppAgent 的架构。

AppAgents 可以与提供两类不同接口的应用环境进行交互:GUI 前端(GUI frontends)具有普遍可观察性,但通常比较脆弱;本地应用程序接口(native APIs)具有高保真性,但需要明确的集成。

为了将这些异构的执行后端统一到一个运行时抽象概念下,UFO² 引入了模块化的执行协调器–Puppeteer,它可以为每个操作步骤在 GUI 级自动化和特定 API 之间进行动态选择。这种设计大大提高了任务的鲁棒性、延迟和可维护性。原本需要较长 GUI 交互序列的任务(例如,在 Excel 中反复选择和格式化单元格)往往可以简化为单个 API 调用,从而缩短了执行时间,减少了故障发生的面积。

关键设计与评估结果

UFO² 的一个关键设计目标是在提供高吞吐量自动化的同时,保持主桌面环境的响应速度和可用性。现有的 CUA 通常会霸占用户的工作空间,长时间控制鼠标和键盘,导致系统在执行任务时无法有效使用。

为了克服这一问题,UFO² 引入了画中画(PiP)界面:一个轻量级的虚拟化桌面窗口,由远程桌面环回提供支持,实现了完全隔离的 agent 执行,与当前的用户工作流并行。

他们将 UFO² 作为一个全栈桌面自动化框架来实施,其中包含 30000 多行 Python 和 C# 代码。Python 是 agent 协调、控制逻辑和 API 集成的核心运行时环境,而 C# 则支持 GUI 开发、调试接口和特定于 Windows 的操作,例如画中画桌面。

为了支持检索增强推理,UFO² 利用 Sentence Transformers 进行基于嵌入的文档和经验检索。除了核心功能,UFO² 还集成了多个专业工程组件,以实现关键的系统目标:可组合性、交互性、可调试性和可扩展部署。

他们在 20 多个 Windows 应用程序(包括办公套件、文件浏览器和自定义企业工具)中对 UFO² 进行了严格测试,以评估其性能、效率和鲁棒性。

为了评估 Puppeteer 中基于 API 的操作与标准 GUI 交互的统一对性能的影响,他们将重点放在 OSWorld 中与办公相关的 27 项任务上,并为 Word、Excel 和 PowerPoint 手工开发了 12 个 API。这些应用程序提供了 COM 接口,便于创建自定义功能,使其成为操作系统与应用程序深度集成的理想范例。这些操作中有许多需要繁琐的多步骤 GUI 程序,但通过这些 API(如选择段落)就可以直接进行单次调用。

表|仅使用 GUI 和使用 GUI + API 的总体成功率(SR)、计划错误恢复率(PRR)、执行错误恢复率(ERR)、控制检测失败恢复率(CRR)和平均完成步骤(ACS)

结果表明,集成 API 操作提高了 GPT-4o 的 SR(+6.1%)和 o1 的 SR(+8.2%),凸显了混合 GUI 和 API 交互的有效性。

UFO² 与 GPT-4o 相比,节省了 6.5% 的步骤,而与 o1 相比,节省了 58.5% 的步骤。后者的改进源于 o1 能够战略性地调用 API 函数,绕过了多个基于 GUI 的步骤。这证实了将 GUI 自动化与 API 调用相结合在鲁棒性和效率方面的优势,并展示了深度系统集成对于桌面自动化的重要性。

此外, GUI + API 方法简化了任务执行。在 OSWorld-W 案例中使用纯 GUI 或 GUI + API 交互将 Excel 文件导出为 CSV 格式的完成轨迹。虽然两种配置最终都取得了成功,但只使用 GUI 的设置需要 5 个步骤才能打开“保存”对话框、选择文件格式并确认操作。相比之下,只需调用一次 save_as API 就能立即完成任务。

除了提高效率外,这种一步到位的解决方案还降低了在多次 GUI 交互中出现复合错误的风险,体现了更深入的操作系统和应用程序级集成的优势。

图|比较仅使用 GUI 和 GUI + API 完成相同任务的案例研究

下一代智能 Windows 还远吗?

作为一个实用的、操作系统集成的 Windows 桌面自动化 AgentOS,UFO² 将 CUA 从概念原型转变为强大的、面向用户的解决方案。

研究证实,通过将集成框架与强大的操作系统级功能相结合,即使是不专业的基础模型(如 GPT-4o)也能超越专业的 CUA,如 Operator。

未来,UFO² 将进一步缩小与人类水平性能的差距,提高跨系统通用性。通过在广泛、多样的 GUI 交互数据集上进行微调来增强基础视觉语言模型,提高智能体的能力和在不同应用中的通用性。

同时,与操作系统级 API、本地 API 以及全面、结构化的文档资源进行更紧密的集成,也能够加深对上下文的理解并提高执行的可靠性。

另外,探索跨平台部署将是未来工作的一个重要领域,有可能为跨越不同操作环境的统一桌面自动化解决方案生态系统奠定基础。

微软近来在 agent 领域的不断发力,不禁让人畅想,我们距离下一代智能化 Windows 还远吗?

本文来自微信公众号“学术头条”,作者:与可,36氪经授权发布。

  • Related Posts

    在印尼创业的中国人

    和印尼的中国创业者一起 张帆:印尼Xspace创始人 大乔:…

    OpenAI“Agent 圣 经”翻车?LangChain 创始人怒怼“全是坑”

    当前,AI 领域呈现出一种近乎“追星式”的热情氛围,每当有新…

    发表回复

    您的邮箱地址不会被公开。 必填项已用 * 标注

    You Missed

    在印尼创业的中国人

    • admin
    • 22 4 月, 2025
    • 2 views
    在印尼创业的中国人

    下一代Windows曝光?微软发布二代「桌面AgentOS」UFO²,还有画中画功能

    • admin
    • 22 4 月, 2025
    • 2 views
    下一代Windows曝光?微软发布二代「桌面AgentOS」UFO²,还有画中画功能

    OpenAI“Agent 圣 经”翻车?LangChain 创始人怒怼“全是坑”

    • admin
    • 22 4 月, 2025
    • 2 views
    OpenAI“Agent 圣 经”翻车?LangChain 创始人怒怼“全是坑”

    大模型AI软件落地已过验证阶段,代码生成占比明显提升:AI4SE 行业现状调查报告(2024年度)

    • admin
    • 22 4 月, 2025
    • 2 views
    大模型AI软件落地已过验证阶段,代码生成占比明显提升:AI4SE 行业现状调查报告(2024年度)

    一拳打在棉花上,欧盟的DMA奈何不了Safari

    • admin
    • 22 4 月, 2025
    • 1 views
    一拳打在棉花上,欧盟的DMA奈何不了Safari

    PEPA皮帕熊品牌7周年庆:金银七载,花润新生

    • admin
    • 22 4 月, 2025
    • 3 views