网淘吧来吧,欢迎您!

Local STT (Nvidia Parakeet + Whisper Support)技能使用说明

2026-03-30 新闻来源:网淘吧 围观:20
电脑广告
手机广告

本地语音识别(Parakeet / Whisper)

使用ONNX Runtime配合int8量化实现的统一本地语音转文本。选择您的后端:

  • Parakeet(默认):英语识别准确率最佳,能正确捕捉姓名和填充词
  • Whisper:推理速度最快,支持99种语言

使用方法

# Default: Parakeet v2 (best English accuracy)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg

# Explicit backend selection
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b whisper
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b parakeet -m v3

# Quiet mode (suppress progress)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg --quiet

选项

  • -b/--backendparakeet(默认)、whisper
  • -m/--model:模型变体(见下文)
  • --no-int8:禁用int8量化
  • -q/--quiet:抑制进度显示
  • --room-id:用于直接消息的Matrix房间ID

模型

Parakeet(默认后端)

模型描述
v2(默认)仅支持英语,最佳准确度
v3多语言

Whisper

模型描述
微型速度最快,准确度较低
基础(默认)良好平衡
小型准确度更好
大型-v3-增强版最佳质量,速度较慢

基准测试(24秒音频)

后端/模型时间实时因子备注
Whisper 基础 int80.43秒0.018倍最快
Parakeet v2 int80.60秒0.025倍最佳准确度
Parakeet v3 int80.63秒0.026倍多语言

openclaw.json

{
  "tools": {
    "media": {
      "audio": {
        "enabled": true,
        "models": [
          {
            "type": "cli",
            "command": "~/.openclaw/skills/local-stt/scripts/local-stt.py",
            "args": ["--quiet", "{{MediaPath}}"],
            "timeoutSeconds": 30
          }
        ]
      }
    }
  }
}

Local STT (Nvidia Parakeet + Whisper Support)

免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部

相关文章

您是本站第339056名访客 今日有22篇新文章/评论