用于纯视觉 GUI 代理的 OmniParser

1微软研究院, 2微软 Gen AI,

摘要

最近大型视觉语言模型的成功展示了其在驱动用户界面上的代理系统方面的巨大潜力。然而,我们认为,像 GPT-4V 这样的多模态模型作为在不同应用程序中的多个操作系统上的通用代理的能力被大大低估了,这是由于缺乏一种强大的屏幕解析技术,该技术能够:1. 可靠地识别用户界面中可交互的图标,以及 2. 理解屏幕截图中各种元素的语义,并将预期操作与屏幕上的相应区域准确关联起来。为了填补这些空白,我们引入了 OMNIPARSER,这是一种将用户界面屏幕截图解析为结构化元素的综合方法,它显着增强了 GPT-4V 生成可以准确地扎根于界面相应区域的操作的能力。我们首先使用流行的网页策划了一个可交互的图标检测数据集和一个图标描述数据集。这些数据集用于微调专门的模型:一个检测模型用于解析屏幕上可交互的区域,以及一个标题模型用于提取检测到的元素的功能语义。OMNIPARSER 显着提高了 GPT-4V 在 ScreenSpot 基准测试上的性能。在 Mind2Web 和 AITW 基准测试中,仅使用屏幕截图输入的 OMNIPARSER 的性能优于需要屏幕截图之外的额外信息的 GPT-4V 基线。

Result mobile Result mobile Result mobile

OmniParser 解析的屏幕截图图像和局部语义的示例。 OmniParse 的输入是用户任务和 UI 屏幕截图,它将产生:1. 解析的屏幕截图图像,其中覆盖了边界框和数字 ID,以及 2. 局部语义,包含提取的文本和图标描述。

可交互区域检测和图标功能描述的精选数据集


我们策划了一个可交互图标检测数据集,包含 67k 个独特的屏幕截图图像,每个图像都标记了来自 DOM 树的可交互图标的边界框。我们首先对 clueweb 数据集上流行的公开可用 URL 进行了 10 万个统一采样,并从每个 URL 的 DOM 树中收集了网页可交互区域的边界框。我们还收集了 7k 个图标-描述对,用于微调标题模型。
Species Classification results on iWildCam2020-WILDS (OOD) dataset

来自可交互区域检测数据集的示例。. 边界框基于从网页的 DOM 树中提取的可交互区域。

结果


我们在 SeeClick、Mind2Web 和 AITW 基准测试上评估我们的模型。 我们表明我们的模型在所有基准测试中都优于 GPT-4V 基线。 我们还表明,我们仅使用屏幕截图输入的模型优于需要屏幕截图之外的额外信息的 GPT-4V 基线。
seeclick mind2web aitw

为其他视觉语言模型准备的插件


为了进一步证明 OmniParser 是现成视觉语言模型的插件选择,我们展示了 OmniParser 与最近发布的视觉语言模型:Phi-3.5-V 和 Llama-3.2-V 结合的性能。 如表所示,与在所有 GPT-4V、Phi-3.5-V 和 Llama-3.2-V 的子类别中具有局部语义的 grounding dino 模型(不使用 ID)相比,我们微调的可交互区域检测 (ID) 模型显着提高了任务性能。 此外,图标功能的局部语义对每个视觉语言模型的性能都有很大帮助。 在表中,LS 是图标功能的局部语义的缩写,ID 是我们微调的可交互区域检测模型的缩写。 w.o. ID 设置意味着我们将 ID 模型替换为未在我们的数据上微调的原始 Grounding DINO 模型,并具有局部语义。 w.o. ID 和 w.o LS 设置意味着我们使用 Grounding DINO 模型,并且进一步不使用文本提示中的图标描述。
seeclick

Mind2Web 任务演示


引用

@misc{lu2024omniparserpurevisionbased,
                title={OmniParser for Pure Vision Based GUI Agent}, 
                author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},
                year={2024},
                eprint={2408.00203},
                archivePrefix={arXiv},
                primaryClass={cs.CV},
                url={https://arxiv.org/abs/2408.00203}, 
          }