最近大型视觉语言模型的成功展示了其在驱动用户界面上的代理系统方面的巨大潜力。然而,我们认为,像 GPT-4V 这样的多模态模型作为在不同应用程序中的多个操作系统上的通用代理的能力被大大低估了,这是由于缺乏一种强大的屏幕解析技术,该技术能够:1. 可靠地识别用户界面中可交互的图标,以及 2. 理解屏幕截图中各种元素的语义,并将预期操作与屏幕上的相应区域准确关联起来。为了填补这些空白,我们引入了 OMNIPARSER,这是一种将用户界面屏幕截图解析为结构化元素的综合方法,它显着增强了 GPT-4V 生成可以准确地扎根于界面相应区域的操作的能力。我们首先使用流行的网页策划了一个可交互的图标检测数据集和一个图标描述数据集。这些数据集用于微调专门的模型:一个检测模型用于解析屏幕上可交互的区域,以及一个标题模型用于提取检测到的元素的功能语义。OMNIPARSER 显着提高了 GPT-4V 在 ScreenSpot 基准测试上的性能。在 Mind2Web 和 AITW 基准测试中,仅使用屏幕截图输入的 OMNIPARSER 的性能优于需要屏幕截图之外的额外信息的 GPT-4V 基线。
来自可交互区域检测数据集的示例。. 边界框基于从网页的 DOM 树中提取的可交互区域。
@misc{lu2024omniparserpurevisionbased,
title={OmniParser for Pure Vision Based GUI Agent},
author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},
year={2024},
eprint={2408.00203},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2408.00203},
}