Local STT (Nvidia Parakeet + Whisper Support)技能使用说明
2026-03-30
新闻来源:网淘吧
围观:20
电脑广告
手机广告
本地语音识别(Parakeet / Whisper)
使用ONNX Runtime配合int8量化实现的统一本地语音转文本。选择您的后端:
- Parakeet(默认):英语识别准确率最佳,能正确捕捉姓名和填充词
- Whisper:推理速度最快,支持99种语言
使用方法
# Default: Parakeet v2 (best English accuracy)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg
# Explicit backend selection
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b whisper
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b parakeet -m v3
# Quiet mode (suppress progress)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg --quiet
选项
-b/--backend:parakeet(默认)、whisper-m/--model:模型变体(见下文)--no-int8:禁用int8量化-q/--quiet:抑制进度显示--room-id:用于直接消息的Matrix房间ID
模型
Parakeet(默认后端)
| 模型 | 描述 |
|---|---|
| v2(默认) | 仅支持英语,最佳准确度 |
| v3 | 多语言 |
Whisper
| 模型 | 描述 |
|---|---|
| 微型 | 速度最快,准确度较低 |
| 基础(默认) | 良好平衡 |
| 小型 | 准确度更好 |
| 大型-v3-增强版 | 最佳质量,速度较慢 |
基准测试(24秒音频)
| 后端/模型 | 时间 | 实时因子 | 备注 |
|---|---|---|---|
| Whisper 基础 int8 | 0.43秒 | 0.018倍 | 最快 |
| Parakeet v2 int8 | 0.60秒 | 0.025倍 | 最佳准确度 |
| Parakeet v3 int8 | 0.63秒 | 0.026倍 | 多语言 |
openclaw.json
{
"tools": {
"media": {
"audio": {
"enabled": true,
"models": [
{
"type": "cli",
"command": "~/.openclaw/skills/local-stt/scripts/local-stt.py",
"args": ["--quiet", "{{MediaPath}}"],
"timeoutSeconds": 30
}
]
}
}
}
}

文章底部电脑广告
手机广告位-内容正文底部


微信扫一扫,打赏作者吧~