Parakeet Stt
2026-03-31
新闻来源:网淘吧
围观:8
电脑广告
手机广告
Parakeet TDT(语音转文字)
使用NVIDIA Parakeet TDT 0.6B v3模型配合ONNX Runtime进行本地转录。 运行于CPU——无需GPU。速度约为实时转录的30倍。
安装
# Clone the repo
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git
cd parakeet-tdt-0.6b-v3-fastapi-openai
# Run with Docker (recommended)
docker compose up -d parakeet-cpu
# Or run directly with Python
pip install -r requirements.txt
uvicorn app.main:app --host 0.0.0.0 --port 5000
默认端口为5000。设置PARAKEET_URL以覆盖默认设置(例如,http://localhost:5092)。

API 端点
提供与OpenAI兼容的API,位于$PARAKEET_URL(默认:http://localhost:5000)。
快速开始
# Transcribe audio file (plain text)
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=text"
# Get timestamps and segments
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=verbose_json"
# Generate subtitles (SRT)
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=srt"
Python / OpenAI SDK
import os
from openai import OpenAI
client = OpenAI(
base_url=os.getenv("PARAKEET_URL", "http://localhost:5000") + "/v1",
api_key="not-needed"
)
with open("audio.mp3", "rb") as f:
transcript = client.audio.transcriptions.create(
model="parakeet-tdt-0.6b-v3",
file=f,
response_format="text"
)
print(transcript)
响应格式
| 格式 | 输出 |
|---|---|
text | 纯文本 |
json | {"text": "..."} |
详细JSON | 带时间戳和单词的段落 |
srt | SRT字幕 |
vtt | WebVTT字幕 |
支持语言 (25种)
英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、俄语、 乌克兰语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、捷克语、 罗马尼亚语、匈牙利语、保加利亚语、斯洛伐克语、克罗地亚语、立陶宛语、拉脱维亚语、 爱沙尼亚语、斯洛文尼亚语
语言自动检测 — 无需配置。
Web界面
打开$PARAKEET_URL在浏览器中,使用拖放式转录界面。
Docker管理
# Check status
docker ps --filter "name=parakeet"
# View logs
docker logs -f <container-name>
# Restart
docker compose restart
# Stop
docker compose down
为什么选择Parakeet而非Whisper?
- 速度:在CPU上比实时快约30倍
- 准确度:与Whisper large-v3相当
- 隐私完全本地运行,无需云端调用
- 兼容性:可无缝替代OpenAI的转录API
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Cto Advisor
下一篇:Midea Air Conditioners


微信扫一扫,打赏作者吧~