promptflow.rag 模块#

promptflow.rag.build_index(*, name: str, vector_store: str = 'azure_ai_search', input_source: Union[AzureAISearchSource, LocalSource], index_config: Optional[AzureAISearchConfig] = None, embeddings_model_config: EmbeddingsModelConfig, data_source_url: Optional[str] = None, tokens_per_chunk: int = 1024, token_overlap_across_chunks: int = 0, input_glob: str = '**/*', max_sample_files: Optional[int] = None, chunk_prepend_summary: Optional[bool] = None, document_path_replacement_regex: Optional[Dict[str, str]] = None, embeddings_cache_path: Optional[str] = None) str#

在本地生成嵌入并存储内存中的索引引用。

参数:
  • name (str) – 输出索引的名称。

  • vector_store (str) – 要索引的向量存储。

  • input_source (Union[AzureAISearchSource, LocalSource]) – 输入数据源的配置。

  • index_config (AzureAISearchConfig) – Azure Cognitive Search 输出的配置。

  • embeddings_model_config (EmbeddingsModelConfig) – 嵌入模型的配置。

  • data_source_url (Optional[str]) – 数据源的 URL。

  • tokens_per_chunk (int) – 每个块的大小。

  • token_overlap_across_chunks (int) – 块之间的重叠。

  • input_glob (str) – 输入的 glob 模式。

  • max_sample_files (Optional[int]) – 样本文件的最大数量。

  • chunk_prepend_summary (Optional[bool]) – 是否在每个块前添加摘要。

  • document_path_replacement_regex (Optional[Dict[str, str]]) – 文档路径替换的正则表达式。

  • embeddings_cache_path (Optional[str]) – 嵌入缓存的路径。

返回:

已创建索引的本地路径。

返回类型:

str

promptflow.rag.get_langchain_retriever_from_index(path: str)#

子包#