输出
默认管道会生成一系列输出表,这些表与概念知识模型对齐。此页面描述了详细的输出表模式。默认情况下,我们将这些表作为 parquet 文件写入磁盘。
共享字段
所有表都有两个标识符字段
| name | 类型 | 描述 |
|---|---|---|
| id | str | 生成的 UUID,确保全局唯一性 |
| human_readable_id | int | 这是每次运行生成的递增短 ID。例如,我们将此短 ID 与生成摘要一起使用,这些摘要打印引用,以便于目视交叉引用。 |
社区
这是 Leiden 生成的最终社区列表。社区是严格分层的,随着集群亲和性的缩小而细分为子社区。
| name | 类型 | 描述 |
|---|---|---|
| community | int | Leiden 为社区生成的集群 ID。请注意,这些 ID 随深度递增,因此在社区层次结构的所有级别中都是唯一的。对于此表,human_readable_id 是社区 ID 的副本,而不是简单的增量。 |
| parent | int | 父社区 ID。 |
| children | int[] | 子社区 ID 列表。 |
| level | int | 社区在层次结构中的深度。 |
| title | str | 社区的友好名称。 |
| 实体 ID | str[] | 属于社区的实体列表。 |
| 关系 ID | str[] | 完全位于社区内的关系列表(源和目标都在社区内)。 |
| 文本单元 ID | str[] | 社区内表示的文本单元列表。 |
| period | str | 摄取日期,用于增量更新合并。ISO8601 |
| size | int | 社区大小(实体计数),用于增量更新合并。 |
社区报告
这是每个社区的摘要报告列表。
| name | 类型 | 描述 |
|---|---|---|
| community | int | 此报告适用的社区的短 ID。 |
| parent | int | 父社区 ID。 |
| children | int[] | 子社区 ID 列表。 |
| level | int | 此报告适用的社区级别。 |
| title | str | LM 为报告生成的标题。 |
| summary | str | LM 为报告生成的摘要。 |
| full_content | str | LM 生成的完整报告。 |
| rank | float | LM 基于成员实体显著性得出的报告相关性排名 |
| rating_explanation | str | LM 得出的排名解释。 |
| findings | dict | LM 得出的社区前 5-10 个见解列表。包含 summary 和 explanation 值。 |
| full_content_json | json | LM 返回的完整 JSON 输出。大多数字段都提取到列中,但此 JSON 用于查询摘要,因此我们将其保留以允许最终用户通过提示调整来添加字段/内容。 |
| period | str | 摄取日期,用于增量更新合并。ISO8601 |
| size | int | 社区大小(实体计数),用于增量更新合并。 |
协变量
(可选)如果开启了声明提取,这是提取的协变量列表。请注意,声明通常围绕识别欺诈等恶意行为,因此它们并非适用于所有数据集。
| name | 类型 | 描述 |
|---|---|---|
| 协变量类型 | str | 在我们的默认协变量中,这始终是“声明”。 |
| 类型 | str | 声明类型的性质。 |
| 描述 | str | LM 生成的行为描述。 |
| 主体 ID | str | 源实体(执行所声称行为的实体)的名称。 |
| 客体 ID | str | 目标实体(所声称行为施加于其上的实体)的名称。 |
| 状态 | str | LM 得出的声明正确性评估。其中之一是 [TRUE, FALSE, SUSPECTED] |
| 开始日期 | str | LM 得出的所声称活动的开始日期。ISO8601 |
| 结束日期 | str | LM 得出的所声称活动的结束日期。ISO8601 |
| 源文本 | str | 包含所声称行为的短字符串文本。 |
| 文本单元 ID | str | 提取声明文本的文本单元的 ID。 |
文档
导入后的文档内容列表。
| name | 类型 | 描述 |
|---|---|---|
| title | str | 文件名,除非在 CSV 导入期间另行配置。 |
| text | str | 文档的全文。 |
| 文本单元 ID | str[] | 从文档中解析的文本单元(块)列表。 |
| metadata | dict | 如果在 CSV 导入期间指定,这是一个文档元数据字典。 |
实体
LM 在数据中找到的所有实体列表。
| name | 类型 | 描述 |
|---|---|---|
| title | str | 实体的名称。 |
| 类型 | str | 实体的类型。默认情况下,除非另行配置或使用自动调优,否则这将是“组织”、“人物”、“地理”或“事件”。 |
| 描述 | str | 实体的文本描述。实体可能存在于许多文本单元中,因此这是 LM 得出的所有描述的摘要。 |
| 文本单元 ID | str[] | 包含实体的文本单元列表。 |
| 频率 | int | 找到实体的文本单元计数。 |
| 度 | int | 图中节点的度(连接性)。 |
| x | float | 用于视觉布局的节点 X 位置。如果未开启图嵌入和 UMAP,则为 0。 |
| y | float | 用于视觉布局的节点 Y 位置。如果未开启图嵌入和 UMAP,则为 0。 |
关系
LM 在数据中找到的所有实体间关系列表。这也是图的边列表。
| name | 类型 | 描述 |
|---|---|---|
| 源 | str | 源实体的名称。 |
| 目标 | str | 目标实体的名称。 |
| 描述 | str | LM 得出的关系描述。另请参阅实体描述的注释。 |
| 权重 | float | 图中边的权重。这是从每个关系实例的 LM 得出的“强度”度量求和而来的。 |
| 组合度 | int | 源节点和目标节点度的总和。 |
| 文本单元 ID | str[] | 找到关系的文本单元列表。 |
文本单元
从输入文档中解析的所有文本块列表。
| name | 类型 | 描述 |
|---|---|---|
| text | str | 块的原始全文。 |
| n_tokens | int | 块中的标记数。这通常应与 chunk_size 配置参数匹配,但最后一个块通常较短。 |
| 文档 ID | str[] | 块来源的文档 ID 列表。由于我们的默认分组方式,这通常只有 1 个,但对于非常短的文本文档(例如,微博),可以配置为文本单元跨越多个文档。 |
| 实体 ID | str[] | 在文本单元中找到的实体列表。 |
| 关系 ID | str[] | 在文本单元中找到的关系列表。 |
| 协变量 ID | str[] | 在文本单元中找到的协变量的可选列表。 |