Google Gemini

第一步

要使用 Google Gemini API,您需要在 Google Gemini 网站上创建帐户并获取 API 密钥。

第二步

您可能需要安装额外的依赖项才能使用 Google Gemini API。您可以使用以下命令安装依赖项:

pip install -U google-genai==1.12.1

第三步

config.yaml 文件中(将 config_template.yaml 文件重命名为 config.yaml)配置 HOST_AGENTAPP_AGENT 以使用 Google Gemini API。以下是 Google Gemini API 的配置示例:

VISUAL_MODE: True, # Whether to use visual mode to understand screenshots and take actions
API_TYPE: "Gemini" ,
API_KEY: "YOUR_KEY",  
API_MODEL: "YOUR_MODEL"

提示

如果将 VISUAL_MODE 设置为 True,请确保 API_MODEL 支持视觉输入。

提示

API_MODEL 是 Gemini LLM API 的模型名称。您可以在 Gemini LLM 模型列表中找到模型名称。如果您遇到 429 资源已耗尽(例如检查配额),这可能是因为您的 Gemini API 的速率限制。

步骤 4

使用 Gemini API 配置 HOST_AGENTAPP_AGENT 后,您可以开始使用 UFO 与 Gemini API 交互,以在 Windows 操作系统上执行各种任务。有关如何开始使用 UFO 的更多详细信息,请参阅快速入门指南