输出

默认管道会生成一系列输出表，这些表与概念知识模型对齐。此页面描述了详细的输出表模式。默认情况下，我们将这些表作为 parquet 文件写入磁盘。

共享字段

所有表都有两个标识符字段

name	类型	描述
id	str	生成的 UUID，确保全局唯一性
human_readable_id	int	这是每次运行生成的递增短 ID。例如，我们将此短 ID 与生成摘要一起使用，这些摘要打印引用，以便于目视交叉引用。

这是 Leiden 生成的最终社区列表。社区是严格分层的，随着集群亲和性的缩小而细分为子社区。

name	类型	描述
community	int	Leiden 为社区生成的集群 ID。请注意，这些 ID 随深度递增，因此在社区层次结构的所有级别中都是唯一的。对于此表，human_readable_id 是社区 ID 的副本，而不是简单的增量。
parent	int	父社区 ID。
children	int[]	子社区 ID 列表。
level	int	社区在层次结构中的深度。
title	str	社区的友好名称。
实体 ID	str[]	属于社区的实体列表。
关系 ID	str[]	完全位于社区内的关系列表（源和目标都在社区内）。
文本单元 ID	str[]	社区内表示的文本单元列表。
period	str	摄取日期，用于增量更新合并。ISO8601
size	int	社区大小（实体计数），用于增量更新合并。

这是每个社区的摘要报告列表。

name	类型	描述
community	int	此报告适用的社区的短 ID。
parent	int	父社区 ID。
children	int[]	子社区 ID 列表。
level	int	此报告适用的社区级别。
title	str	LM 为报告生成的标题。
summary	str	LM 为报告生成的摘要。
full_content	str	LM 生成的完整报告。
rank	float	LM 基于成员实体显著性得出的报告相关性排名
rating_explanation	str	LM 得出的排名解释。
findings	dict	LM 得出的社区前 5-10 个见解列表。包含 `summary` 和 `explanation` 值。
full_content_json	json	LM 返回的完整 JSON 输出。大多数字段都提取到列中，但此 JSON 用于查询摘要，因此我们将其保留以允许最终用户通过提示调整来添加字段/内容。
period	str	摄取日期，用于增量更新合并。ISO8601
size	int	社区大小（实体计数），用于增量更新合并。

（可选）如果开启了声明提取，这是提取的协变量列表。请注意，声明通常围绕识别欺诈等恶意行为，因此它们并非适用于所有数据集。

name	类型	描述
协变量类型	str	在我们的默认协变量中，这始终是“声明”。
类型	str	声明类型的性质。
描述	str	LM 生成的行为描述。
主体 ID	str	源实体（执行所声称行为的实体）的名称。
客体 ID	str	目标实体（所声称行为施加于其上的实体）的名称。
状态	str	LM 得出的声明正确性评估。其中之一是 [TRUE, FALSE, SUSPECTED]
开始日期	str	LM 得出的所声称活动的开始日期。ISO8601
结束日期	str	LM 得出的所声称活动的结束日期。ISO8601
源文本	str	包含所声称行为的短字符串文本。
文本单元 ID	str	提取声明文本的文本单元的 ID。

导入后的文档内容列表。

LM 在数据中找到的所有实体列表。

name	类型	描述
title	str	实体的名称。
类型	str	实体的类型。默认情况下，除非另行配置或使用自动调优，否则这将是“组织”、“人物”、“地理”或“事件”。
描述	str	实体的文本描述。实体可能存在于许多文本单元中，因此这是 LM 得出的所有描述的摘要。
文本单元 ID	str[]	包含实体的文本单元列表。
频率	int	找到实体的文本单元计数。
度	int	图中节点的度（连接性）。
x	float	用于视觉布局的节点 X 位置。如果未开启图嵌入和 UMAP，则为 0。
y	float	用于视觉布局的节点 Y 位置。如果未开启图嵌入和 UMAP，则为 0。

LM 在数据中找到的所有实体间关系列表。这也是图的边列表。

name	类型	描述
源	str	源实体的名称。
目标	str	目标实体的名称。
描述	str	LM 得出的关系描述。另请参阅实体描述的注释。
权重	float	图中边的权重。这是从每个关系实例的 LM 得出的“强度”度量求和而来的。
组合度	int	源节点和目标节点度的总和。
文本单元 ID	str[]	找到关系的文本单元列表。

从输入文档中解析的所有文本块列表。

name	类型	描述
text	str	块的原始全文。
n_tokens	int	块中的标记数。这通常应与 `chunk_size` 配置参数匹配，但最后一个块通常较短。
文档 ID	str[]	块来源的文档 ID 列表。由于我们的默认分组方式，这通常只有 1 个，但对于非常短的文本文档（例如，微博），可以配置为文本单元跨越多个文档。
实体 ID	str[]	在文本单元中找到的实体列表。
关系 ID	str[]	在文本单元中找到的关系列表。
协变量 ID	str[]	在文本单元中找到的协变量的可选列表。