输出
默认管道生成一系列与概念知识模型对齐的输出表。 此页面描述了详细的输出表架构。 默认情况下,我们将这些表作为 parquet 文件写入磁盘。
共享字段
所有表都有两个标识符字段
名称 | 类型 | 描述 |
---|---|---|
id | str | 生成的 UUID,确保全局唯一性 |
human_readable_id | int | 这是每次运行递增的短 ID。 例如,我们将此短 ID 与生成的摘要一起使用,这些摘要会打印引文,以便易于视觉交叉引用。 |
社区
这是 Leiden 生成的最终社区列表。 社区是严格分层的,随着集群亲和力的缩小,细分为子社区。
名称 | 类型 | 描述 |
---|---|---|
community | int | Leiden 生成的社区集群 ID。 请注意,这些 ID 随深度递增,因此在社区层次结构的所有级别中都是唯一的。 对于此表,human_readable_id 是社区 ID 的副本,而不是简单的递增。 |
parent | int | 父社区 ID。 |
children | int[] | 子社区 ID 列表。 |
level | int | 社区在层次结构中的深度。 |
title | str | 社区的友好名称。 |
entity_ids | str[] | 作为社区成员的实体列表。 |
relationship_ids | str[] | 完全位于社区内的关系列表(源和目标都在社区内)。 |
text_unit_ids | str[] | 社区内表示的文本单元列表。 |
period | str | 摄取日期,用于增量更新合并。 ISO8601 |
size | int | 社区的大小(实体计数),用于增量更新合并。 |
社区报告
这是每个社区的汇总报告列表。
名称 | 类型 | 描述 |
---|---|---|
community | int | 此报告适用的社区的短 ID。 |
parent | int | 父社区 ID。 |
children | int[] | 子社区 ID 列表。 |
level | int | 此报告适用的社区级别。 |
title | str | 报告的 LM 生成的标题。 |
summary | str | 报告的 LM 生成的摘要。 |
full_content | str | LM 生成的完整报告。 |
rank | float | 基于成员实体显着性的报告的 LM 导出的相关性排名 |
rating_explanation | str | LM 导出的排名解释。 |
findings | dict | LM 导出的社区前 5-10 个见解列表。 包含 summary 和 explanation 值。 |
full_content_json | json | LM 返回的完整 JSON 输出。 大多数字段都提取到列中,但此 JSON 会发送以进行查询汇总,因此我们将其保留,以便最终用户可以通过提示调优来添加字段/内容。 |
period | str | 摄取日期,用于增量更新合并。 ISO8601 |
size | int | 社区的大小(实体计数),用于增量更新合并。 |
协变量
(可选)如果启用了声明提取,则这是提取的协变量列表。 请注意,声明通常围绕识别恶意行为(例如欺诈)而定向,因此它们并非对所有数据集都有效。
名称 | 类型 | 描述 |
---|---|---|
covariate_type | str | 使用我们的默认协变量时,这始终为“claim”。 |
类型 | str | 声明类型的性质。 |
描述 | str | LM 生成的行为描述。 |
subject_id | str | 源实体(即执行声明行为的实体)的名称。 |
object_id | str | 目标实体(声明行为对其执行)的名称。 |
status | str | LM 导出的对声明正确性的评估。 [TRUE、FALSE、SUSPECTED] 之一 |
start_date | str | LM 导出的声明活动开始时间。 ISO8601 |
end_date | str | LM 导出的声明活动结束时间。 ISO8601 |
source_text | str | 包含声明行为的文本短字符串。 |
text_unit_id | str | 从中提取声明文本的文本单元的 ID。 |
文档
导入后文档内容的列表。
名称 | 类型 | 描述 |
---|---|---|
title | str | 文件名,除非在 CSV 导入期间另有配置。 |
text | str | 文档的全文。 |
text_unit_ids | str[] | 从文档中解析的文本单元(块)的列表。 |
metadata | dict | 如果在 CSV 导入期间指定,则这是文档的元数据字典。 |
实体
LM 在数据中找到的所有实体的列表。
名称 | 类型 | 描述 |
---|---|---|
title | str | 实体的名称。 |
类型 | str | 实体的类型。 默认情况下,这将是“organization”、“person”、“geo”或“event”,除非配置不同或使用自动调优。 |
描述 | str | 实体的文本描述。 实体可能存在于许多文本单元中,因此这是所有描述的 LM 导出的摘要。 |
text_unit_ids | str[] | 包含实体的文本单元列表。 |
frequency | int | 实体所在的文本单元的计数。 |
degree | int | 图中节点的度数(连通性)。 |
x | float | 用于视觉布局的节点的 X 位置。 如果未启用图嵌入和 UMAP,则这将为 0。 |
y | float | 用于视觉布局的节点的 Y 位置。 如果未启用图嵌入和 UMAP,则这将为 0。 |
关系
LM 在数据中找到的所有实体到实体关系的列表。 这也是图的*边列表*。
名称 | 类型 | 描述 |
---|---|---|
source | str | 源实体的名称。 |
target | str | 目标实体的名称。 |
描述 | str | 关系的 LM 导出的描述。 另请参阅实体描述的注释。 |
weight | float | 图中边的权重。 这是从每个关系实例的 LM 导出的“强度”度量中求和得出的。 |
combined_degree | int | 源节点和目标节点度数之和。 |
text_unit_ids | str[] | 在其中找到关系的文本单元列表。 |
文本单元
从输入文档中解析的所有文本块的列表。
名称 | 类型 | 描述 |
---|---|---|
text | str | 块的原始全文。 |
n_tokens | int | 块中的 token 数量。 这通常应与 chunk_size 配置参数匹配,但最后一个块通常较短。 |
document_ids | str[] | 块来自的文档 ID 列表。 由于我们的默认 groupby,这通常只有 1 个,但对于非常短的文本文档(例如,微博),可以配置为使文本单元跨越多个文档。 |
entity_ids | str[] | 在文本单元中找到的实体列表。 |
relationships_ids | str[] | 在文本单元中找到的关系列表。 |
covariate_ids | str[] | 在文本单元中找到的可选协变量列表。 |