跳到内容

输出

默认管道会生成一系列输出表,这些表与概念知识模型对齐。此页面描述了详细的输出表模式。默认情况下,我们将这些表作为 parquet 文件写入磁盘。

共享字段

所有表都有两个标识符字段

name 类型 描述
id str 生成的 UUID,确保全局唯一性
human_readable_id int 这是每次运行生成的递增短 ID。例如,我们将此短 ID 与生成摘要一起使用,这些摘要打印引用,以便于目视交叉引用。

社区

这是 Leiden 生成的最终社区列表。社区是严格分层的,随着集群亲和性的缩小而细分为子社区。

name 类型 描述
community int Leiden 为社区生成的集群 ID。请注意,这些 ID 随深度递增,因此在社区层次结构的所有级别中都是唯一的。对于此表,human_readable_id 是社区 ID 的副本,而不是简单的增量。
parent int 父社区 ID。
children int[] 子社区 ID 列表。
level int 社区在层次结构中的深度。
title str 社区的友好名称。
实体 ID str[] 属于社区的实体列表。
关系 ID str[] 完全位于社区内的关系列表(源和目标都在社区内)。
文本单元 ID str[] 社区内表示的文本单元列表。
period str 摄取日期,用于增量更新合并。ISO8601
size int 社区大小(实体计数),用于增量更新合并。

社区报告

这是每个社区的摘要报告列表。

name 类型 描述
community int 此报告适用的社区的短 ID。
parent int 父社区 ID。
children int[] 子社区 ID 列表。
level int 此报告适用的社区级别。
title str LM 为报告生成的标题。
summary str LM 为报告生成的摘要。
full_content str LM 生成的完整报告。
rank float LM 基于成员实体显著性得出的报告相关性排名
rating_explanation str LM 得出的排名解释。
findings dict LM 得出的社区前 5-10 个见解列表。包含 summaryexplanation 值。
full_content_json json LM 返回的完整 JSON 输出。大多数字段都提取到列中,但此 JSON 用于查询摘要,因此我们将其保留以允许最终用户通过提示调整来添加字段/内容。
period str 摄取日期,用于增量更新合并。ISO8601
size int 社区大小(实体计数),用于增量更新合并。

协变量

(可选)如果开启了声明提取,这是提取的协变量列表。请注意,声明通常围绕识别欺诈等恶意行为,因此它们并非适用于所有数据集。

name 类型 描述
协变量类型 str 在我们的默认协变量中,这始终是“声明”。
类型 str 声明类型的性质。
描述 str LM 生成的行为描述。
主体 ID str 源实体(执行所声称行为的实体)的名称。
客体 ID str 目标实体(所声称行为施加于其上的实体)的名称。
状态 str LM 得出的声明正确性评估。其中之一是 [TRUE, FALSE, SUSPECTED]
开始日期 str LM 得出的所声称活动的开始日期。ISO8601
结束日期 str LM 得出的所声称活动的结束日期。ISO8601
源文本 str 包含所声称行为的短字符串文本。
文本单元 ID str 提取声明文本的文本单元的 ID。

文档

导入后的文档内容列表。

name 类型 描述
title str 文件名,除非在 CSV 导入期间另行配置。
text str 文档的全文。
文本单元 ID str[] 从文档中解析的文本单元(块)列表。
metadata dict 如果在 CSV 导入期间指定,这是一个文档元数据字典。

实体

LM 在数据中找到的所有实体列表。

name 类型 描述
title str 实体的名称。
类型 str 实体的类型。默认情况下,除非另行配置或使用自动调优,否则这将是“组织”、“人物”、“地理”或“事件”。
描述 str 实体的文本描述。实体可能存在于许多文本单元中,因此这是 LM 得出的所有描述的摘要。
文本单元 ID str[] 包含实体的文本单元列表。
频率 int 找到实体的文本单元计数。
int 图中节点的度(连接性)。
x float 用于视觉布局的节点 X 位置。如果未开启图嵌入和 UMAP,则为 0。
y float 用于视觉布局的节点 Y 位置。如果未开启图嵌入和 UMAP,则为 0。

关系

LM 在数据中找到的所有实体间关系列表。这也是图的边列表

name 类型 描述
str 源实体的名称。
目标 str 目标实体的名称。
描述 str LM 得出的关系描述。另请参阅实体描述的注释。
权重 float 图中边的权重。这是从每个关系实例的 LM 得出的“强度”度量求和而来的。
组合度 int 源节点和目标节点度的总和。
文本单元 ID str[] 找到关系的文本单元列表。

文本单元

从输入文档中解析的所有文本块列表。

name 类型 描述
text str 块的原始全文。
n_tokens int 块中的标记数。这通常应与 chunk_size 配置参数匹配,但最后一个块通常较短。
文档 ID str[] 块来源的文档 ID 列表。由于我们的默认分组方式,这通常只有 1 个,但对于非常短的文本文档(例如,微博),可以配置为文本单元跨越多个文档。
实体 ID str[] 在文本单元中找到的实体列表。
关系 ID str[] 在文本单元中找到的关系列表。
协变量 ID str[] 在文本单元中找到的协变量的可选列表。