跳到内容

输出

默认管道生成一系列与概念知识模型对齐的输出表。 此页面描述了详细的输出表架构。 默认情况下,我们将这些表作为 parquet 文件写入磁盘。

共享字段

所有表都有两个标识符字段

名称 类型 描述
id str 生成的 UUID,确保全局唯一性
human_readable_id int 这是每次运行递增的短 ID。 例如,我们将此短 ID 与生成的摘要一起使用,这些摘要会打印引文,以便易于视觉交叉引用。

社区

这是 Leiden 生成的最终社区列表。 社区是严格分层的,随着集群亲和力的缩小,细分为子社区。

名称 类型 描述
community int Leiden 生成的社区集群 ID。 请注意,这些 ID 随深度递增,因此在社区层次结构的所有级别中都是唯一的。 对于此表,human_readable_id 是社区 ID 的副本,而不是简单的递增。
parent int 父社区 ID。
children int[] 子社区 ID 列表。
level int 社区在层次结构中的深度。
title str 社区的友好名称。
entity_ids str[] 作为社区成员的实体列表。
relationship_ids str[] 完全位于社区内的关系列表(源和目标都在社区内)。
text_unit_ids str[] 社区内表示的文本单元列表。
period str 摄取日期,用于增量更新合并。 ISO8601
size int 社区的大小(实体计数),用于增量更新合并。

社区报告

这是每个社区的汇总报告列表。

名称 类型 描述
community int 此报告适用的社区的短 ID。
parent int 父社区 ID。
children int[] 子社区 ID 列表。
level int 此报告适用的社区级别。
title str 报告的 LM 生成的标题。
summary str 报告的 LM 生成的摘要。
full_content str LM 生成的完整报告。
rank float 基于成员实体显着性的报告的 LM 导出的相关性排名
rating_explanation str LM 导出的排名解释。
findings dict LM 导出的社区前 5-10 个见解列表。 包含 summaryexplanation 值。
full_content_json json LM 返回的完整 JSON 输出。 大多数字段都提取到列中,但此 JSON 会发送以进行查询汇总,因此我们将其保留,以便最终用户可以通过提示调优来添加字段/内容。
period str 摄取日期,用于增量更新合并。 ISO8601
size int 社区的大小(实体计数),用于增量更新合并。

协变量

(可选)如果启用了声明提取,则这是提取的协变量列表。 请注意,声明通常围绕识别恶意行为(例如欺诈)而定向,因此它们并非对所有数据集都有效。

名称 类型 描述
covariate_type str 使用我们的默认协变量时,这始终为“claim”。
类型 str 声明类型的性质。
描述 str LM 生成的行为描述。
subject_id str 源实体(即执行声明行为的实体)的名称。
object_id str 目标实体(声明行为对其执行)的名称。
status str LM 导出的对声明正确性的评估。 [TRUE、FALSE、SUSPECTED] 之一
start_date str LM 导出的声明活动开始时间。 ISO8601
end_date str LM 导出的声明活动结束时间。 ISO8601
source_text str 包含声明行为的文本短字符串。
text_unit_id str 从中提取声明文本的文本单元的 ID。

文档

导入后文档内容的列表。

名称 类型 描述
title str 文件名,除非在 CSV 导入期间另有配置。
text str 文档的全文。
text_unit_ids str[] 从文档中解析的文本单元(块)的列表。
metadata dict 如果在 CSV 导入期间指定,则这是文档的元数据字典。

实体

LM 在数据中找到的所有实体的列表。

名称 类型 描述
title str 实体的名称。
类型 str 实体的类型。 默认情况下,这将是“organization”、“person”、“geo”或“event”,除非配置不同或使用自动调优。
描述 str 实体的文本描述。 实体可能存在于许多文本单元中,因此这是所有描述的 LM 导出的摘要。
text_unit_ids str[] 包含实体的文本单元列表。
frequency int 实体所在的文本单元的计数。
degree int 图中节点的度数(连通性)。
x float 用于视觉布局的节点的 X 位置。 如果未启用图嵌入和 UMAP,则这将为 0。
y float 用于视觉布局的节点的 Y 位置。 如果未启用图嵌入和 UMAP,则这将为 0。

关系

LM 在数据中找到的所有实体到实体关系的列表。 这也是图的*边列表*。

名称 类型 描述
source str 源实体的名称。
target str 目标实体的名称。
描述 str 关系的 LM 导出的描述。 另请参阅实体描述的注释。
weight float 图中边的权重。 这是从每个关系实例的 LM 导出的“强度”度量中求和得出的。
combined_degree int 源节点和目标节点度数之和。
text_unit_ids str[] 在其中找到关系的文本单元列表。

文本单元

从输入文档中解析的所有文本块的列表。

名称 类型 描述
text str 块的原始全文。
n_tokens int 块中的 token 数量。 这通常应与 chunk_size 配置参数匹配,但最后一个块通常较短。
document_ids str[] 块来自的文档 ID 列表。 由于我们的默认 groupby,这通常只有 1 个,但对于非常短的文本文档(例如,微博),可以配置为使文本单元跨越多个文档。
entity_ids str[] 在文本单元中找到的实体列表。
relationships_ids str[] 在文本单元中找到的关系列表。
covariate_ids str[] 在文本单元中找到的可选协变量列表。