网淘吧来吧,欢迎您!

Gemini STT技能使用说明

2026-03-29 新闻来源:网淘吧 围观:18
电脑广告
手机广告

Gemini 语音转文本技能

使用 Google 的 Gemini API 或 Vertex AI 转录音频文件。默认模型为gemini-2.0-flash-lite以实现最快的转录速度。

身份验证(选择其一)

选项 1:使用应用默认凭据的 Vertex AI(推荐)

gcloud auth application-default login
gcloud config set project YOUR_PROJECT_ID

脚本将在可用时自动检测并使用 ADC。

Gemini STT

选项 2:直接使用 Gemini API 密钥

在环境中设置GEMINI_API_KEY(例如,在~/.env~/.clawdbot/.env文件中)

要求

  • Python 3.10+(无外部依赖项)
  • 需具备 GEMINI_API_KEY 或配置了 ADC 的 gcloud CLI

支持的格式

  • .ogg/.opus(Telegram 语音消息)
  • .mp3
  • .wav
  • .m4a

用法

# Auto-detect auth (tries ADC first, then GEMINI_API_KEY)
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg

# Force Vertex AI
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex

# With a specific model
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --model gemini-2.5-pro

# Vertex AI with specific project and region
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex --project my-project --region us-central1

# With Clawdbot media
python ~/.claude/skills/gemini-stt/transcribe.py ~/.clawdbot/media/inbound/voice-message.ogg

选项

选项描述
<音频文件>音频文件的路径(必需)
--model,-m要使用的 Gemini 模型(默认:gemini-2.0-flash-lite
--vertex,-v强制使用带 ADC 的 Vertex AI
--project,-pGCP 项目 ID(用于 Vertex,默认为 gcloud 配置)
--region,-rGCP 区域(针对 Vertex,默认为:us-central1

支持的模型

任何支持音频输入的 Gemini 模型均可使用。推荐模型:

模型备注
gemini-2.0-flash-lite默认模型。最快的转录速度。
gemini-2.0-flash快速且经济高效。
gemini-2.5-flash-lite轻量级 2.5 模型。
gemini-2.5-flash速度与质量的平衡。
gemini-2.5-pro质量更高,速度较慢。
gemini-3-flash-preview最新的 Flash 模型。
gemini-3-pro-preview最新的 Pro 模型,质量最佳。

参见Gemini API 模型以获取最新列表。

工作原理

  1. 读取音频文件并进行 Base64 编码
  2. 自动检测身份验证方式:
    • 若 ADC 可用(通过 gcloud),则使用 Vertex AI 端点
    • 否则,使用 GEMINI_API_KEY 直接调用 Gemini API
  3. 将带有转录提示的请求发送至选定的 Gemini 模型
  4. 返回转录后的文本

集成示例

适用于 Clawdbot 语音消息处理:

# Transcribe incoming voice message
TRANSCRIPT=$(python ~/.claude/skills/gemini-stt/transcribe.py "$AUDIO_PATH")
echo "User said: $TRANSCRIPT"

错误处理

脚本在以下情况会以代码 1 退出,并向标准错误输出打印信息:

  • 无可用身份验证(既无 ADC 也无 GEMINI_API_KEY)
  • 文件未找到
  • API 错误
  • 缺少 GCP 项目(使用 Vertex 时)

注意事项

  • 默认使用 Gemini 2.0 Flash Lite 模型以实现最快转录速度
  • 无外部 Python 依赖(仅使用标准库)
  • 根据文件扩展名自动检测MIME类型
  • 优先使用支持ADC的Vertex AI(无需管理API密钥)

免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部

相关文章

您是本站第326290名访客 今日有221篇新文章/评论