默认配置模式（使用 YAML/JSON）

默认配置模式可以通过使用数据项目根目录中的 settings.yml 或 settings.json 文件来配置。如果存在 .env 文件以及此配置文件，则会加载它，并且其中定义的环境变量可用于使用 ${ENV_VAR} 语法在您的配置文件中进行令牌替换。我们默认在 graphrag init 中使用 YML 初始化，但如果需要，您可以使用等效的 JSON 格式。

许多配置值都有默认值。与其在此处复制它们，请直接参考代码中的常量。

例如

# .env
GRAPHRAG_API_KEY=some_api_key

# settings.yml
llm: 
  api_key: ${GRAPHRAG_API_KEY}

配置部分

语言模型设置

models

这是一个模型配置的字典。字典键用于在需要模型实例时在其他地方引用此配置。这样，您可以根据需要指定任意数量的不同模型，并在工作流步骤中差异化地引用它们。

例如

models:
  default_chat_model:
    api_key: ${GRAPHRAG_API_KEY}
    type: openai_chat
    model: gpt-4o
    model_supports_json: true
  default_embedding_model:
    api_key: ${GRAPHRAG_API_KEY}
    type: openai_embedding
    model: text-embedding-ada-002

字段

api_key str - 要使用的 OpenAI API 密钥。
auth_type api_key|managed_identity - 指示您想要如何验证请求。
type openai_chat|azure_openai_chat|openai_embedding|azure_openai_embedding|mock_chat|mock_embeddings - 要使用的 LLM 的类型。
model str - 模型名称。
encoding_model str - 要使用的文本编码模型。默认是使用与语言模型对齐的编码模型（即，如果未设置，则从 tiktoken 中检索）。
api_base str - 要使用的 API 基本 URL。
api_version str - API 版本。
deployment_name str - 要使用的部署名称（Azure）。
organization str - 客户端组织。
proxy str - 要使用的代理 URL。
audience str - (仅限 Azure OpenAI) 请求托管身份令牌的目标 Azure 资源/服务的 URI。如果未定义 api_key，则使用。默认值=https://cognitiveservices.azure.com/.default
model_supports_json bool - 模型是否支持 JSON 模式输出。
request_timeout float - 每个请求的超时时间。
tokens_per_minute int - 设置每分钟令牌数的漏桶限制。
requests_per_minute int - 设置每分钟请求数的漏桶限制。
retry_strategy str - 要使用的重试策略，“native” 是默认值，并使用 OpenAI SDK 中内置的策略。其他允许的值包括 "exponential_backoff"、"random_wait" 和 "incremental_wait"。
max_retries int - 要使用的最大重试次数。
max_retry_wait float - 最大退避时间。
concurrent_requests int 允许同时进行的开放请求数。
async_mode asyncio|threaded 要使用的异步模式。 asyncio 或 threaded。
responses list[str] - 如果此模型类型是 mock，则这是一个要返回的响应字符串列表。
n int - 要生成的完成次数。
max_tokens int - 输出令牌的最大数量。对于 o 系列模型无效。
temperature float - 要使用的温度。对于 o 系列模型无效。
top_p float - 要使用的 top-p 值。对于 o 系列模型无效。
frequency_penalty float - 用于令牌生成的频率惩罚。对于 o 系列模型无效。
presence_penalty float - 用于令牌生成的频率惩罚。对于 o 系列模型无效。
max_completion_tokens int - 聊天完成要消耗的最大令牌数。必须足够大，才能包含模型“推理”的未知数量。仅限 o 系列模型。
reasoning_effort low|medium|high - 模型花费在推理响应上的“思考”量。仅限 o 系列模型。

输入文件和分块

input

我们的管道可以从输入文件夹中摄取 .csv、.txt 或 .json 数据。有关更多详细信息和示例，请参见输入页面。

字段

type file|blob - 要使用的输入类型。默认值=file
file_type text|csv|json - 要加载的输入数据的类型。默认值为 text
base_dir str - 要从中读取输入的基本目录，相对于根目录。
connection_string str - （仅限 blob）Azure 存储连接字符串。
storage_account_blob_url str - 要使用的存储帐户 blob URL。
container_name str - （仅限 blob）Azure 存储容器名称。
encoding str - 输入文件的编码。默认值为 utf-8
file_pattern str - 用于匹配输入文件的正则表达式。默认值为 .*\.csv$、.*\.txt$ 或 .*\.json$，具体取决于指定的 file_type，但您可以根据需要对其进行自定义。
file_filter dict - 要过滤的键/值对。默认值为 None。
text_column str - （仅限 CSV/JSON）文本列名称。如果未设置，我们期望一个名为 text 的列。
title_column str - （仅限 CSV/JSON）标题列名称，如果未设置，将使用文件名。
metadata list[str] - （仅限 CSV/JSON）要保留的其他文档属性字段。

chunks

这些设置配置我们将文档解析为文本块的方式。这是必要的，因为非常大的文档可能不适合单个上下文窗口，并且可以调节图提取的准确性。另请注意输入文档配置中的 metadata 设置，它会将文档元数据复制到每个块中。

字段

size int - 令牌的最大块大小。
overlap int - 令牌中的块重叠。
group_by_columns list[str] - 在分块之前按这些字段对文档进行分组。
strategy str[tokens|sentences] - 如何对文本进行分块。
encoding_model str - 用于在令牌边界上拆分的文本编码模型。
prepend_metadata bool - 确定是否应在每个块的开头添加元数据值。默认值=False。
chunk_size_includes_metadata bool - 指定块大小计算是否应包括元数据令牌。默认值=False。

输出和存储

output

本节控制管道用于导出输出表的存储机制。

字段

type file|memory|blob|cosmosdb - 要使用的存储类型。默认值=file
base_dir str - 用于写入输出工件的基本目录，相对于根目录。
connection_string str - （仅限 blob/cosmosdb）Azure 存储连接字符串。
container_name str - （仅限 blob/cosmosdb）Azure 存储容器名称。
storage_account_blob_url str - （仅限 blob）要使用的存储帐户 blob URL。
cosmosdb_account_blob_url str - （仅限 cosmosdb）要使用的 CosmosDB 帐户 blob URL。

update_index_output

本节定义了运行增量索引的辅助存储位置，以保留您的原始输出。

字段

type file|memory|blob|cosmosdb - 要使用的存储类型。默认值=file
base_dir str - 用于写入输出工件的基本目录，相对于根目录。
connection_string str - （仅限 blob/cosmosdb）Azure 存储连接字符串。
container_name str - （仅限 blob/cosmosdb）Azure 存储容器名称。
storage_account_blob_url str - （仅限 blob）要使用的存储帐户 blob URL。
cosmosdb_account_blob_url str - （仅限 cosmosdb）要使用的 CosmosDB 帐户 blob URL。

cache

本节控制管道使用的缓存机制。这用于缓存 LLM 调用结果，以便在重新运行索引过程时获得更快的性能。

字段

type file|memory|blob|cosmosdb - 要使用的存储类型。默认值=file
base_dir str - 用于写入输出工件的基本目录，相对于根目录。
connection_string str - （仅限 blob/cosmosdb）Azure 存储连接字符串。
container_name str - （仅限 blob/cosmosdb）Azure 存储容器名称。
storage_account_blob_url str - （仅限 blob）要使用的存储帐户 blob URL。
cosmosdb_account_blob_url str - （仅限 cosmosdb）要使用的 CosmosDB 帐户 blob URL。

reporting

本节控制管道使用的报告机制，用于常见事件和错误消息。默认是将报告写入输出目录中的文件。但是，您也可以选择将报告写入控制台或 Azure Blob 存储容器。

字段

type file|console|blob - 使用的报告类型。默认值=file
base_dir str - 报告写入的基础目录，相对于根目录。
connection_string str - （仅限 blob）Azure 存储连接字符串。
container_name str - （仅限 blob）Azure 存储容器名称。
storage_account_blob_url str - 要使用的存储帐户 blob URL。

vector_store

用于存放系统所有向量的位置。默认配置为 lancedb。这是一个字典，键用于标识各个存储参数（例如，用于文本嵌入）。

字段

type lancedb|azure_ai_search|cosmosdb - 向量存储的类型。默认值=lancedb
db_uri str (仅用于 lancedb) - 数据库 URI。默认值=storage.base_dir/lancedb
url str (仅用于 AI Search) - AI Search 端点
api_key str (可选 - 仅用于 AI Search) - 要使用的 AI Search API 密钥。
audience str (仅用于 AI Search) - 如果使用托管身份验证，则用于托管身份令牌的受众。
container_name str - 向量容器的名称。它存储给定数据集摄取的所有索引（表）。默认值=default
database_name str - (仅用于 cosmosdb) 数据库的名称。
overwrite bool (仅在索引创建时使用) - 如果集合存在，则覆盖集合。默认值=True

工作流配置

这些设置控制每个工作流的执行。

workflows

list[str] - 这是要运行的工作流名称列表，按顺序排列。 GraphRAG 有内置的管道来配置此列表，但是您可以通过在此处指定列表来完全按照您想要的方式运行。如果您自己完成了部分处理，这将很有用。

embed_text

默认情况下，GraphRAG 索引器只会导出我们的查询方法所需的嵌入。但是，该模型为所有纯文本字段定义了嵌入，并且可以通过设置 target 和 names 字段进行自定义。

支持的嵌入名称是

text_unit.text
document.text
entity.title
entity.description
relationship.description
community.title
community.summary
community.full_content

字段

model_id str - 用于文本嵌入的模型定义的名称。
vector_store_id str - 要写入的向量存储定义的名称。
batch_size int - 要使用的最大批处理大小。
batch_max_tokens int - 最大批处理的 token 数量。
target required|all|selected|none - 确定要导出哪一组嵌入。
names list[str] - 如果 target=selected，则应为我们支持的嵌入名称的显式列表。

extract_graph

调整基于语言模型的图提取过程。

字段

model_id str - 用于 API 调用的模型定义的名称。
prompt str - 要使用的提示文件。
entity_types list[str] - 要标识的实体类型。
max_gleanings int - 要使用的最大收集周期数。

summarize_descriptions

字段

model_id str - 用于 API 调用的模型定义的名称。
prompt str - 要使用的提示文件。
max_length int - 每次摘要的最大输出 token 数。
max_input_length int - 要收集以进行摘要的最大 token 数（这将限制您发送以进行摘要的给定实体或关系的描述数量）。

extract_graph_nlp

定义基于 NLP 的图提取方法的设置。

字段

normalize_edge_weights bool - 是否在图构建期间标准化边权重。默认值=True。
text_analyzer dict - NLP 模型的参数。
extractor_type regex_english|syntactic_parser|cfg - 默认值=regex_english。
model_name str - NLP 模型的名称（对于基于 SpaCy 的模型）
max_word_length int - 允许的最长单词长度。默认值=15。
word_delimiter str - 用于分隔单词的分隔符。默认值 ' '.
include_named_entities bool - 是否在名词短语中包含命名实体。默认值=True。
exclude_nouns list[str] | None - 要排除的名词列表。如果为 None，我们将使用内部停用词列表。
exclude_entity_tags list[str] - 要忽略的实体标签列表。
exclude_pos_tags list[str] - 要忽略的词性标签列表。
noun_phrase_tags list[str] - 要忽略的名词短语标签列表。
noun_phrase_grammars dict[str, str] - 模型的名词短语语法（仅 cfg）。

prune_graph

手动图修剪的参数。这可用于通过删除过度连接或稀有节点来优化图集群的模块化。

字段

min_node_freq int - 允许的最小节点频率。
max_node_freq_std float | None - 允许的最大节点频率标准偏差。
min_node_degree int - 允许的最小节点度数。
max_node_degree_std float | None - 允许的最大节点度数标准偏差。
min_edge_weight_pct float - 允许的最小边权重百分位数。
remove_ego_nodes bool - 删除自我节点。
lcc_only bool - 仅使用最大的连通分量。

cluster_graph

这些是用于对图进行 Leiden 分层聚类以创建社区的设置。

字段

max_cluster_size int - 要导出的最大集群大小。
use_lcc bool - 是否仅使用最大的连通分量。
seed int - 如果需要一致的运行结果，则提供一个随机种子。我们确实提供了一个默认值，以保证聚类的稳定性。

extract_claims

字段

enabled bool - 是否启用声明提取。默认情况下处于关闭状态，因为声明提示确实需要用户调整。
model_id str - 用于 API 调用的模型定义的名称。
prompt str - 要使用的提示文件。
description str - 描述我们要提取的声明的类型。
max_gleanings int - 要使用的最大收集周期数。

community_reports

字段

model_id str - 用于 API 调用的模型定义的名称。
prompt str - 要使用的提示文件。
max_length int - 每个报告的最大输出 token 数。
max_input_length int - 生成报告时要使用的最大输入 token 数。

embed_graph

我们使用 node2vec 来嵌入图。这主要用于可视化，因此默认情况下未启用。

字段

enabled bool - 是否启用图嵌入。
dimensions int - 要生成的向量维度数。
num_walks int - node2vec 的游走次数。
walk_length int - node2vec 的游走长度。
window_size int - node2vec 的窗口大小。
iterations int - node2vec 的迭代次数。
random_seed int - node2vec 的随机种子。
strategy dict - 完全覆盖嵌入图策略。

umap

指示我们是否应该运行 UMAP 降维。这用于为每个图节点提供一个 x/y 坐标，适用于可视化。如果未启用此功能，则节点将收到 0/0 x/y 坐标。如果启用了此功能，则必须同时启用图嵌入。

字段

enabled bool - 是否启用 UMAP 布局。

snapshots

字段

embeddings bool - 将嵌入快照导出到 parquet。
graphml bool - 将图快照导出到 GraphML。

查询

local_search

字段

chat_model_id str - 用于聊天完成调用的模型定义的名称。
embedding_model_id str - 用于嵌入调用的模型定义的名称。
prompt str - 要使用的提示文件。
text_unit_prop float - 文本单元比例。
community_prop float - 社区比例。
conversation_history_max_turns int - 会话历史记录的最大轮数。
top_k_entities int - 映射的前 k 个实体。
top_k_relationships int - 映射的前 k 个关系。
max_context_tokens int - 用于构建请求上下文的最大 token 数。

global_search

字段

chat_model_id str - 用于聊天完成调用的模型定义的名称。
map_prompt str - 要使用的映射器提示文件。
reduce_prompt str - 要使用的缩减器提示文件。
knowledge_prompt str - 要使用的知识提示文件。
map_prompt str | None - 要使用的全局搜索映射器提示。
reduce_prompt str | None - 要使用的全局搜索缩减器。
knowledge_prompt str | None - 要使用的全局搜索常规提示。
max_context_tokens int - 要创建的最大上下文大小（以 token 为单位）。
data_max_tokens int - 用于从缩减响应构建最终响应的最大 token 数。
map_max_length int - 请求映射响应的最大长度（以单词为单位）。
reduce_max_length int - 请求缩减响应的最大长度（以单词为单位）。
dynamic_search_threshold int - 包含社区报告的评分阈值。
dynamic_search_keep_parent bool - 如果任何子社区是相关的，则保留父社区。
dynamic_search_num_repeats int - 对同一社区报告进行评分的次数。
dynamic_search_use_summary bool - 使用社区摘要而不是 full_context。
dynamic_search_max_level int - 如果没有一个已处理的社区是相关的，则要考虑的社区层次结构的最大级别。

drift_search

字段

chat_model_id str - 用于聊天完成调用的模型定义的名称。
embedding_model_id str - 用于嵌入调用的模型定义的名称。
prompt str - 要使用的提示文件。
reduce_prompt str - 要使用的缩减器提示文件。
data_max_tokens int - 数据 llm 的最大 token 数。
reduce_max_tokens int - 缩减阶段的最大 token 数。仅在使用非 o 系列模型时使用。
reduce_max_completion_tokens int - 缩减阶段的最大 token 数。仅用于 o 系列模型。
concurrency int - 并发请求的数量。
drift_k_followups int - 要检索的顶部全局结果的数量。
primer_folds int - 搜索启动的折叠次数。
primer_llm_max_tokens int - 启动中 LLM 的最大 token 数。
n_depth int - 要执行的漂移搜索步骤数。
local_search_text_unit_prop float - 专用于文本单元的搜索比例。
local_search_community_prop float - 专用于社区属性的搜索比例。
local_search_top_k_mapped_entities int - 在本地搜索期间要映射的前 K 个实体数。
local_search_top_k_relationships int - 在本地搜索期间要映射的前 K 个关系数。
local_search_max_data_tokens int - 本地搜索的上下文中最大 token 大小。
local_search_temperature float - 用于本地搜索中 token 生成的温度。
local_search_top_p float - 用于本地搜索中 token 生成的 top-p 值。
local_search_n int - 在本地搜索中要生成的完成数。
local_search_llm_max_gen_tokens int - 本地搜索中 LLM 生成的最大 token 数。仅在使用非 o 系列模型时使用。
local_search_llm_max_gen_completion_tokens int - 本地搜索中 LLM 生成的最大 token 数。仅用于 o 系列模型。

basic_search

字段

chat_model_id str - 用于聊天完成调用的模型定义的名称。
embedding_model_id str - 用于嵌入调用的模型定义的名称。
prompt str - 要使用的提示文件。
k int | None - 要从向量存储中检索以构建上下文的文本单元数。