混合检测
我们还支持使用 UIA 和 OmniParser-v2 进行混合控制检测。此方法可用于使用 UI Automation (UIA) 框架检测应用程序中的标准控件,以及检测应用程序中可能无法通过标准 UIA 方法识别的自定义控件。通过基于 IOU 移除重复控件,将视觉检测到的控件与 UIA 控件合并。我们在下图中说明了混合控件检测
配置
在使用混合控件检测之前,您需要部署和配置 OmniParser 模型。您可以参考OmniParser 部署了解更多详情。
要激活图标控件过滤,您需要在 config_dev.yaml
文件中将 CONTROL_BACKEND
设置为 ["uia", "omniparser"]
。
CONTROL_BACKEND: ["uia", "omniparser"]
参考
OmniParser 中用于视觉控件检测的类如下
基类:BasicGrounding
OmniparserGrounding 类是 BasicGrounding 的子类,用于表示 Omniparser 接地模型。
parse_results(results, application_window=None)
将接地结果字符串解析为控制元素信息字典列表。
参数 |
|
---|
返回 |
|
---|
源代码位于 automator/ui_control/grounding/omniparser.py
79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 |
|
predict(image_path, box_threshold=0.05, iou_threshold=0.1, use_paddleocr=True, imgsz=640, api_name='/process')
预测给定图像的接地。
参数 |
|
---|
返回 |
|
---|
源代码位于 automator/ui_control/grounding/omniparser.py
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 |
|