跳到内容

GraphRAG 索引 🤖

GraphRAG 索引包是一个数据管道和转换套件,旨在通过使用 LLM 从非结构化文本中提取有意义的结构化数据。

索引管道是可配置的。 它们由工作流程、标准和自定义步骤、提示模板以及输入/输出适配器组成。 我们的标准管道旨在

  • 从原始文本中提取实体、关系和声明
  • 在实体中执行社区检测
  • 生成多个粒度级别的社区摘要和报告
  • 将实体嵌入到图向量空间中
  • 将文本块嵌入到文本向量空间中

默认情况下,管道的输出存储为 Parquet 表,并且嵌入会写入您配置的向量存储。

开始使用

要求

有关设置开发环境的详细信息,请参阅开始使用中的要求部分。

要配置 GraphRAG,请参阅配置文档。 拥有配置文件后,您可以使用 CLI 或 Python API 运行管道。

用法

CLI

# Via Poetry
poetry run poe index --root <data_root> # default config mode

Python API

请参阅索引 API python 文件,以获取直接从 Python 代码调用的推荐方法。

深入阅读

  • 要开始在 GraphRAG 项目中进行开发,请参阅入门
  • 要了解索引库的底层概念和执行模型,请参阅架构文档
  • 要阅读有关配置索引引擎的更多信息,请参阅配置文档