Gemini STT技能使用说明
2026-03-29
新闻来源:网淘吧
围观:18
电脑广告
手机广告
Gemini 语音转文本技能
使用 Google 的 Gemini API 或 Vertex AI 转录音频文件。默认模型为gemini-2.0-flash-lite以实现最快的转录速度。
身份验证(选择其一)
选项 1:使用应用默认凭据的 Vertex AI(推荐)
gcloud auth application-default login
gcloud config set project YOUR_PROJECT_ID
脚本将在可用时自动检测并使用 ADC。

选项 2:直接使用 Gemini API 密钥
在环境中设置GEMINI_API_KEY(例如,在~/.env或~/.clawdbot/.env文件中)
要求
- Python 3.10+(无外部依赖项)
- 需具备 GEMINI_API_KEY 或配置了 ADC 的 gcloud CLI
支持的格式
.ogg/.opus(Telegram 语音消息).mp3.wav.m4a
用法
# Auto-detect auth (tries ADC first, then GEMINI_API_KEY)
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg
# Force Vertex AI
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex
# With a specific model
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --model gemini-2.5-pro
# Vertex AI with specific project and region
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex --project my-project --region us-central1
# With Clawdbot media
python ~/.claude/skills/gemini-stt/transcribe.py ~/.clawdbot/media/inbound/voice-message.ogg
选项
| 选项 | 描述 |
|---|---|
<音频文件> | 音频文件的路径(必需) |
--model,-m | 要使用的 Gemini 模型(默认:gemini-2.0-flash-lite) |
--vertex,-v | 强制使用带 ADC 的 Vertex AI |
--project,-p | GCP 项目 ID(用于 Vertex,默认为 gcloud 配置) |
--region,-r | GCP 区域(针对 Vertex,默认为:us-central1) |
支持的模型
任何支持音频输入的 Gemini 模型均可使用。推荐模型:
| 模型 | 备注 |
|---|---|
gemini-2.0-flash-lite | 默认模型。最快的转录速度。 |
gemini-2.0-flash | 快速且经济高效。 |
gemini-2.5-flash-lite | 轻量级 2.5 模型。 |
gemini-2.5-flash | 速度与质量的平衡。 |
gemini-2.5-pro | 质量更高,速度较慢。 |
gemini-3-flash-preview | 最新的 Flash 模型。 |
gemini-3-pro-preview | 最新的 Pro 模型,质量最佳。 |
参见Gemini API 模型以获取最新列表。
工作原理
- 读取音频文件并进行 Base64 编码
- 自动检测身份验证方式:
- 若 ADC 可用(通过 gcloud),则使用 Vertex AI 端点
- 否则,使用 GEMINI_API_KEY 直接调用 Gemini API
- 将带有转录提示的请求发送至选定的 Gemini 模型
- 返回转录后的文本
集成示例
适用于 Clawdbot 语音消息处理:
# Transcribe incoming voice message
TRANSCRIPT=$(python ~/.claude/skills/gemini-stt/transcribe.py "$AUDIO_PATH")
echo "User said: $TRANSCRIPT"
错误处理
脚本在以下情况会以代码 1 退出,并向标准错误输出打印信息:
- 无可用身份验证(既无 ADC 也无 GEMINI_API_KEY)
- 文件未找到
- API 错误
- 缺少 GCP 项目(使用 Vertex 时)
注意事项
- 默认使用 Gemini 2.0 Flash Lite 模型以实现最快转录速度
- 无外部 Python 依赖(仅使用标准库)
- 根据文件扩展名自动检测MIME类型
- 优先使用支持ADC的Vertex AI(无需管理API密钥)
文章底部电脑广告
手机广告位-内容正文底部
上一篇:opentwitter技能使用说明
下一篇:Secucheck技能使用说明


微信扫一扫,打赏作者吧~