网淘吧来吧,欢迎您!

返回首页 微信
微信
手机版
手机版

Vision Sandbox

2026-03-28 新闻来源:网淘吧 围观:11
电脑广告
手机广告

视觉沙盒 🔭

利用 Gemini 的原生代码执行能力对图像进行高精度分析。该模型在 Google 托管的沙盒环境中编写并运行 Python 代码,以验证视觉数据,非常适合进行 UI 审核、空间定位和视觉推理。

安装

clawhub install vision-sandbox

使用方法

uv run vision-sandbox --image "path/to/image.png" --prompt "Identify all buttons and provide [x, y] coordinates."

模式库

📍 空间定位

要求模型查找特定项目并返回坐标。

  • 提示词示例:"在此截图中定位‘提交’按钮。使用代码执行来验证其中心点,并以 [0, 1000] 的比例返回 [x, y] 坐标。"

🧮 视觉数学

要求模型根据图像进行计数或计算。

  • 提示词示例:"计算列表中项目的数量。如果价格可见,使用 Python 对它们的值进行求和。"

🖥️ UI 审核

检查布局和可读性。

  • 提示词示例:"检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。"

🖐️ 计数与逻辑

用代码验证解决视觉计数任务。

  • 提示:"数这只手上有多少根手指。使用代码执行来识别每根手指的边界框并返回总数。"

与 OpenCode 集成

此技能旨在为视觉定位像 OpenCode 这样的自动化编码代理提供支持。

  • 步骤 1:使用vision-sandbox提取 UI 元数据(坐标、尺寸、颜色)。
  • 步骤 2:将 JSON 输出传递给 OpenCode 以生成或修复 CSS/HTML。

配置

  • GEMINI_API_KEY:必需的环境变量。
  • 模型:默认为gemini-3-flash-preview
免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Gemini Image Gen 下一篇:Curl Http

相关文章

您是本站第283910名访客 今日有142篇新文章/评论