如何基于文档在云端生成测试数据#

本指南将帮助您学习如何在 Azure AI 上生成测试数据,以便您可以集成创建的流并处理大量数据。

先决条件#

  1. 阅读本地测试数据生成指南并准备您的测试数据生成流

  2. 转到 example_gen_test_data 文件夹并运行命令 pip install -r requirements_cloud.txt 以准备本地环境。

  3. 准备云环境。

    • 导航到文件 conda.yml

    • 对于特定的文档文件类型,您可能需要安装额外的包

      • .docx - pip install docx2txt

      • .pdf - pip install pypdf

      • .ipynb - pip install nbconvert

      !注意:我们使用 llama index SimpleDirectoryReader 来加载文档。有关所需包的最新信息,请查看此处

  4. 在云端准备 Azure AI 资源。

  5. 创建云 Azure OpenAI 或 OpenAI 连接

  6. 准备测试数据生成设置。

在云端生成测试数据#

为了处理更大的测试数据,您可以利用 PRS 组件在云端运行流。

  • 导航到 example_gen_test_data 文件夹。

  • 配置后,运行以下命令生成测试数据集

    python -m generate-test-data.run --cloud
    
  • 生成的测试数据将是一个数据资产,可以在最后一个节点的输出中找到。您可以注册此数据资产以备将来使用。