用于纯视觉 GUI 代理的 OmniParser

Yadong Lu¹, Jianwei Yang¹, Yelong Shen², Ahmed Awadallah¹,

¹微软研究院, ²微软 Gen AI,

代码 arXiv 博客文章 HF 演示

摘要

最近大型视觉语言模型的成功展示了其在驱动用户界面上的代理系统方面的巨大潜力。然而，我们认为，像 GPT-4V 这样的多模态模型作为在不同应用程序中的多个操作系统上的通用代理的能力被大大低估了，这是由于缺乏一种强大的屏幕解析技术，该技术能够：1. 可靠地识别用户界面中可交互的图标，以及 2. 理解屏幕截图中各种元素的语义，并将预期操作与屏幕上的相应区域准确关联起来。为了填补这些空白，我们引入了 OMNIPARSER，这是一种将用户界面屏幕截图解析为结构化元素的综合方法，它显着增强了 GPT-4V 生成可以准确地扎根于界面相应区域的操作的能力。我们首先使用流行的网页策划了一个可交互的图标检测数据集和一个图标描述数据集。这些数据集用于微调专门的模型：一个检测模型用于解析屏幕上可交互的区域，以及一个标题模型用于提取检测到的元素的功能语义。OMNIPARSER 显着提高了 GPT-4V 在 ScreenSpot 基准测试上的性能。在 Mind2Web 和 AITW 基准测试中，仅使用屏幕截图输入的 OMNIPARSER 的性能优于需要屏幕截图之外的额外信息的 GPT-4V 基线。

OmniParser 解析的屏幕截图图像和局部语义的示例。 OmniParse 的输入是用户任务和 UI 屏幕截图，它将产生：1. 解析的屏幕截图图像，其中覆盖了边界框和数字 ID，以及 2. 局部语义，包含提取的文本和图标描述。

可交互区域检测和图标功能描述的精选数据集

我们策划了一个可交互图标检测数据集，包含 67k 个独特的屏幕截图图像，每个图像都标记了来自 DOM 树的可交互图标的边界框。我们首先对 clueweb 数据集上流行的公开可用 URL 进行了 10 万个统一采样，并从每个 URL 的 DOM 树中收集了网页可交互区域的边界框。我们还收集了 7k 个图标-描述对，用于微调标题模型。