步骤日志
步骤日志包含代理对用户请求的响应以及每个步骤的附加信息。步骤日志存储在 response.log 文件中。HostAgent 和 AppAgent 的日志字段不同。步骤日志为 info 级别。
HostAgent 日志
HostAgent 日志包含以下字段
LLM 输出
| 字段 | 描述 | 类型 |
|---|---|---|
| 观察 | 当前桌面截图的观察。 | 字符串 |
| 思考 | HostAgent 的逻辑推理过程。 |
字符串 |
| 当前子任务 | AppAgent 将要执行的当前子任务。 |
字符串 |
| 消息 | 发送给 AppAgent 以完成子任务的消息。 |
字符串 |
| ControlLabel | 选择用于执行子任务的应用程序的索引。 | 字符串 |
| ControlText | 选择用于执行子任务的应用程序的名称。 | 字符串 |
| 计划 | 当前子任务之后后续子任务的计划。 | 字符串列表 |
| 状态 | 代理的状态,映射到 AgentState。 |
字符串 |
| 注释 | 提供给用户的附加评论或信息。 | 字符串 |
| 问题 | 向用户询问附加信息的问题。 | 字符串列表 |
| Bash | HostAgent 将要执行的 bash 命令。它可用于打开应用程序或执行系统命令。 |
字符串 |
附加信息
| 字段 | 描述 | 类型 |
|---|---|---|
| 步骤 | 会话的步骤编号。 | 整数 |
| 回合步骤 | 当前回合的步骤编号。 | 整数 |
| AgentStep | HostAgent 的步骤编号。 |
整数 |
| 回合 | 会话的回合编号。 | 整数 |
| ControlLabel | 选择用于执行子任务的应用程序的索引。 | 整数 |
| ControlText | 选择用于执行子任务的应用程序的名称。 | 字符串 |
| 请求 | 用户请求。 | 字符串 |
| 代理 | 执行该步骤的代理,设置为 HostAgent。 |
字符串 |
| 代理名称 | 智能体的名称。 | 字符串 |
| 应用程序 | 应用程序进程名称。 | 字符串 |
| 成本 | 该步骤的成本。 | 浮点数 |
| 结果 | 该步骤的结果,设置为空字符串。 | 字符串 |
| CleanScreenshot | 桌面截图的图像路径。 | 字符串 |
| AnnotatedScreenshot | 带注释的应用程序截图的图像路径。 | 字符串 |
| ConcatScreenshot | 拼接后的应用程序截图的图像路径。 | 字符串 |
| SelectedControlScreenshot | 所选控件截图的图像路径。 | 字符串 |
| time_cost | 过程中每个步骤的时间成本。 | 字典 |
AppAgent 日志
AppAgent 日志包含以下字段
LLM 输出
| 字段 | 描述 | 类型 |
|---|---|---|
| 观察 | 当前应用程序截图的观察。 | 字符串 |
| 思考 | AppAgent 的逻辑推理过程。 |
字符串 |
| ControlLabel | 选择要交互的控件的索引。 | 字符串 |
| ControlText | 选择要交互的控件的名称。 | 字符串 |
| 功能 | 将在所选控件上执行的功能。 | 字符串 |
| 参数 | 功能执行所需的参数。 | 字符串列表 |
| 状态 | 代理的状态,映射到 AgentState。 |
字符串 |
| 计划 | 当前操作之后后续步骤的计划。 | 字符串列表 |
| 注释 | 提供给用户的附加评论或信息。 | 字符串 |
| 保存截图 | 将应用程序截图保存到 blackboard 以供将来参考的标志。 |
布尔值 |
附加信息
| 字段 | 描述 | 类型 |
|---|---|---|
| 步骤 | 会话的步骤编号。 | 整数 |
| 回合步骤 | 当前回合的步骤编号。 | 整数 |
| AgentStep | AppAgent 的步骤编号。 |
整数 |
| 回合 | 会话的回合编号。 | 整数 |
| 子任务 | AppAgent 将要执行的子任务。 |
字符串 |
| 子任务索引 | 当前回合中子任务的索引。 | 整数 |
| 操作 | AppAgent 将要执行的操作。 |
字符串 |
| 操作类型 | 将要执行的操作的类型。 | 字符串 |
| 请求 | 用户请求。 | 字符串 |
| 代理 | 执行该步骤的代理,设置为 AppAgent。 |
字符串 |
| 代理名称 | 智能体的名称。 | 字符串 |
| 应用程序 | 应用程序进程名称。 | 字符串 |
| 成本 | 该步骤的成本。 | 浮点数 |
| 结果 | 该步骤的结果。 | 字符串 |
| CleanScreenshot | 桌面截图的图像路径。 | 字符串 |
| AnnotatedScreenshot | 带注释的应用程序截图的图像路径。 | 字符串 |
| ConcatScreenshot | 拼接后的应用程序截图的图像路径。 | 字符串 |
| time_cost | 过程中每个步骤的时间成本。 | 字典 |
提示
您可以使用以下 python 代码读取请求日志
import json
with open('logs/{task_name}/request.log', 'r') as f:
for line in f:
log = json.loads(line)
信息
FollowerAgent 日志与 AppAgent 日志共享相同的字段。