网淘吧来吧,欢迎您!

Gemini Computer Use技能使用说明

2026-03-28 新闻来源:网淘吧 围观:14
电脑广告
手机广告

Gemini 计算机使用

快速开始

  1. 配置环境文件并设置您的 API 密钥:

    cp env.example env.sh
    $EDITOR env.sh
    source env.sh
    
  2. 创建虚拟环境并安装依赖项:

    python -m venv .venv
    source .venv/bin/activate
    pip install google-genai playwright
    playwright install chromium
    
  3. 使用提示语运行代理脚本:

    python scripts/computer_use_agent.py \
      --prompt "Find the latest blog post title on example.com" \
      --start-url "https://example.com" \
      --turn-limit 6
    

浏览器选择

  • 默认:Playwright 捆绑的 Chromium(无需设置环境变量)。
  • 通过以下变量选择频道(Chrome/Edge)COMPUTER_USE_BROWSER_CHANNEL
  • 通过以下变量使用自定义的基于 Chromium 的可执行文件(例如,Brave)COMPUTER_USE_BROWSER_EXECUTABLE

如果两者都设置了,则COMPUTER_USE_BROWSER_EXECUTABLE优先。

核心工作流程(代理循环)

  1. 捕获屏幕截图,并将用户目标 + 截图发送给模型。
  2. 解析响应中的function_call操作。
  3. 在Playwright中执行每个动作。
  4. 如果安全决策需要确认,则在执行前提示用户。
  5. 发送函数响应包含最新URL和截图的对象的。
  6. 重复执行,直到模型仅返回文本(无动作)或达到轮次限制。

操作指南

  • 在沙盒浏览器配置文件或容器中运行。
  • 使用--exclude来阻止您不希望模型执行的风险操作。
  • 除非有特殊原因,否则将视口保持在1440x900。

资源

  • 脚本:scripts/computer_use_agent.py
  • 参考说明:references/google-computer-use.md
  • 环境模板:env.example
免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部

相关文章

您是本站第326290名访客 今日有221篇新文章/评论