欢迎阅读 UFO² 的文档!

arxivPython VersionLicense: MITgithubYouTube

引言

UFO 现已演变为 UFO² (Desktop AgentOS),这是一款可在 Windows 桌面操作系统上运行的新一代智能体框架。它旨在跨多个应用程序 自动化编排 任务,使用户能够超越 UI 自动化,通过自然语言命令与操作系统无缝交互。

✨ 主要功能

功能 描述
深度操作系统集成 结合 Windows UIA、Win32 和 WinCOM,实现一流的控件检测和原生命令。
画中画桌面 (即将推出) 自动化在沙盒虚拟桌面中运行,因此您可以继续使用主屏幕。
混合 GUI + API 操作 在可用时选择原生 API,不可用时回退到点击/按键操作——既快速又稳健。
推测性多动作 将几个预测步骤打包到一个 LLM 调用中,并进行实时验证——查询次数可减少 多达 51%
持续知识底座 通过 RAG 混合文档、Bing 搜索、用户演示和执行轨迹,使智能体能够随着时间推移进行学习。
UIA + 视觉控件检测 通过混合 UIA + 视觉管道检测标准和自定义控件。

请参阅 UFO² 论文 和超链接部分,了解每个功能的更多详细信息。


🏗️ 架构概述

UFO² architecture

UFO² 作为 桌面 AgentOS 运行,包含一个多智能体框架,其中包括:

  1. HostAgent – 解析自然语言目标,启动必要的应用程序,启动/协调 AppAgents,并引导全局有限状态机 (FSM)。
  2. AppAgents – 每个应用程序一个;每个 AppAgent 运行一个 ReAct 循环,具有多模态感知、混合控制检测、检索增强知识,以及在 GUI 操作和原生 API 之间进行选择的 Puppeteer 执行器。
  3. 知识子系统 – 将离线文档、在线搜索、演示和执行轨迹融合到一个向量存储中,在推理时即时检索。
  4. 推测性执行器 – 通过预测一批可能的动作并在一 shot 中根据实时 UIA 状态验证它们,从而大大降低 LLM 延迟。
  5. 画中画桌面 (即将推出) – 在隔离的虚拟桌面中运行智能体,因此您的主工作区和输入设备保持不变。

如需深入了解,请参阅我们的 技术报告


🚀 快速入门

请按照 快速入门指南 开始使用 UFO。

注意

本仓库仅供研究目的。此处提供的代码并非为第三方生产用途设计、测试或验证。用户在使用本代码库的任何部分时,应自行判断并进行尽职调查。微软致力于构建负责任、值得信赖的 AI。要了解有关我们的原则和实践的更多信息,请参阅我们的 原则和方法

🌐 媒体报道

请观看 此 YouTube 视频,了解我们对 UFO 的官方深度解读。

UFO 的出现引起了各种媒体的关注,包括:

❓ 获取帮助


📚 引用

如果您基于此工作进行开发,请引用我们的 AgentOS 框架:

UFO² – 桌面 AgentOS (2025)
https://arxiv.org/abs/2504.14603

@article{zhang2025ufo2,
  title   = {{UFO2: The Desktop AgentOS}},
  author  = {Zhang, Chaoyun and Huang, He and Ni, Chiming and Mu, Jian and Qin, Si and He, Shilin and Wang, Lu and Yang, Fangkai and Zhao, Pu and Du, Chao and Li, Liqun and Kang, Yu and Jiang, Zhao and Zheng, Suzhen and Wang, Rujia and Qian, Jiaxu and Ma, Minghua and Lou, Jian-Guang and Lin, Qingwei and Rajmohan, Saravan and Zhang, Dongmei},
  journal = {arXiv preprint arXiv:2504.14603},
  year    = {2025}
}

UFO – 适用于 Windows OS 交互的以 UI 为中心的智能体 (2024)
https://arxiv.org/abs/2402.07939

@article{zhang2024ufo,
  title   = {{UFO: A UI-Focused Agent for Windows OS Interaction}},
  author  = {Zhang, Chaoyun and Li, Liqun and He, Shilin and Zhang, Xu and Qiao, Bo and Qin, Si and Ma, Minghua and Kang, Yu and Lin, Qingwei and Rajmohan, Saravan and Zhang, Dongmei and Zhang, Qi},
  journal = {arXiv preprint arXiv:2402.07939},
  year    = {2024}
}

📝 路线图

UFO² 团队正在积极开发以下功能和改进:

  • 画中画模式 – 已完成,将在下一版本中提供
  • AgentOS 即服务 – 已完成,将在下一版本中提供
  • 自动调试工具包 – 已完成,将在下一版本中提供
  • 与 MCP 和 Agent2Agent 通信集成 – 计划中;正在实施