步骤日志

步骤日志包含代理对用户请求的响应以及每个步骤的附加信息。步骤日志存储在 response.log 文件中。HostAgentAppAgent 的日志字段不同。步骤日志为 info 级别。

HostAgent 日志

HostAgent 日志包含以下字段

LLM 输出

字段 描述 类型
观察 当前桌面截图的观察。 字符串
思考 HostAgent 的逻辑推理过程。 字符串
当前子任务 AppAgent 将要执行的当前子任务。 字符串
消息 发送给 AppAgent 以完成子任务的消息。 字符串
ControlLabel 选择用于执行子任务的应用程序的索引。 字符串
ControlText 选择用于执行子任务的应用程序的名称。 字符串
计划 当前子任务之后后续子任务的计划。 字符串列表
状态 代理的状态,映射到 AgentState 字符串
注释 提供给用户的附加评论或信息。 字符串
问题 向用户询问附加信息的问题。 字符串列表
Bash HostAgent 将要执行的 bash 命令。它可用于打开应用程序或执行系统命令。 字符串

附加信息

字段 描述 类型
步骤 会话的步骤编号。 整数
回合步骤 当前回合的步骤编号。 整数
AgentStep HostAgent 的步骤编号。 整数
回合 会话的回合编号。 整数
ControlLabel 选择用于执行子任务的应用程序的索引。 整数
ControlText 选择用于执行子任务的应用程序的名称。 字符串
请求 用户请求。 字符串
代理 执行该步骤的代理,设置为 HostAgent 字符串
代理名称 智能体的名称。 字符串
应用程序 应用程序进程名称。 字符串
成本 该步骤的成本。 浮点数
结果 该步骤的结果,设置为空字符串。 字符串
CleanScreenshot 桌面截图的图像路径。 字符串
AnnotatedScreenshot 带注释的应用程序截图的图像路径。 字符串
ConcatScreenshot 拼接后的应用程序截图的图像路径。 字符串
SelectedControlScreenshot 所选控件截图的图像路径。 字符串
time_cost 过程中每个步骤的时间成本。 字典

AppAgent 日志

AppAgent 日志包含以下字段

LLM 输出

字段 描述 类型
观察 当前应用程序截图的观察。 字符串
思考 AppAgent 的逻辑推理过程。 字符串
ControlLabel 选择要交互的控件的索引。 字符串
ControlText 选择要交互的控件的名称。 字符串
功能 将在所选控件上执行的功能。 字符串
参数 功能执行所需的参数。 字符串列表
状态 代理的状态,映射到 AgentState 字符串
计划 当前操作之后后续步骤的计划。 字符串列表
注释 提供给用户的附加评论或信息。 字符串
保存截图 将应用程序截图保存到 blackboard 以供将来参考的标志。 布尔值

附加信息

字段 描述 类型
步骤 会话的步骤编号。 整数
回合步骤 当前回合的步骤编号。 整数
AgentStep AppAgent 的步骤编号。 整数
回合 会话的回合编号。 整数
子任务 AppAgent 将要执行的子任务。 字符串
子任务索引 当前回合中子任务的索引。 整数
操作 AppAgent 将要执行的操作。 字符串
操作类型 将要执行的操作的类型。 字符串
请求 用户请求。 字符串
代理 执行该步骤的代理,设置为 AppAgent 字符串
代理名称 智能体的名称。 字符串
应用程序 应用程序进程名称。 字符串
成本 该步骤的成本。 浮点数
结果 该步骤的结果。 字符串
CleanScreenshot 桌面截图的图像路径。 字符串
AnnotatedScreenshot 带注释的应用程序截图的图像路径。 字符串
ConcatScreenshot 拼接后的应用程序截图的图像路径。 字符串
time_cost 过程中每个步骤的时间成本。 字典

提示

您可以使用以下 python 代码读取请求日志

import json

with open('logs/{task_name}/request.log', 'r') as f:
    for line in f:
        log = json.loads(line)

信息

FollowerAgent 日志与 AppAgent 日志共享相同的字段。