Pocket Tts技能使用说明
2026-04-01
新闻来源:网淘吧
围观:23
电脑广告
手机广告
袖珍TTS技能
采用Kyutai袖珍TTS模型实现完全本地化、离线的文本转语音功能。无需任何API调用或网络连接即可从文本生成高质量音频。具备8种内置音色、支持声音克隆,并完全在CPU上运行。
功能特色
- 🎯完全本地化- 无需API调用,完全离线运行
- 🚀仅需CPU- 无需GPU,适用于任何计算机
- ⚡快速生成- CPU处理速度达实时2-6倍
- 🎤8种内置音色- 阿尔巴、马吕斯、沙威、冉阿让、芳汀、珂赛特、爱潘妮、阿赛玛
- 🎭声音克隆- 可通过WAV样本克隆任意音色
- 🔊低延迟- 首段音频块生成仅需约200毫秒
- 📚简易的 Python API- 可轻松集成到任何项目中
安装
# 1. Accept the model license on Hugging Face
# https://huggingface.co/kyutai/pocket-tts
# 2. Install the package
pip install pocket-tts
# Or use uv for automatic dependency management
uvx pocket-tts generate "Hello world"
使用
命令行界面
# Basic usage
pocket-tts "Hello, I am your AI assistant"
# With specific voice
pocket-tts "Hello" --voice alba --output hello.wav
# With custom voice file (voice cloning)
pocket-tts "Hello" --voice-file myvoice.wav --output output.wav
# Adjust speed
pocket-tts "Hello" --speed 1.2
# Start local server
pocket-tts --serve
# List available voices
pocket-tts --list-voices
Python API
from pocket_tts import TTSModel
import scipy.io.wavfile
# Load model
tts_model = TTSModel.load_model()
# Get voice state
voice_state = tts_model.get_state_for_audio_prompt(
"hf://kyutai/tts-voices/alba-mackenna/casual.wav"
)
# Generate audio
audio = tts_model.generate_audio(voice_state, "Hello world!")
# Save to WAV
scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())
# Check sample rate
print(f"Sample rate: {tts_model.sample_rate} Hz")
可用语音
| 语音 | 描述 |
|---|---|
| alba | 随意的女性声音 |
| marius | 男性声音 |
| javert | 清晰的男性声音 |
| jean | 自然的男性声音 |
| fantine | 女性声音 |
| cosette | 女性声音 |
| eponine | 女性声音 |
| azelma | 女性声音 |
或使用--voice-file /path/to/wav.wav用于自定义语音克隆。

选项
| 选项 | 描述 | 默认值 |
|---|---|---|
text | 待转换的文本 | 必需 |
-o, --output | 输出 WAV 文件 | output.wav |
-v, --voice | 语音预设 | alba |
-s, --speed | 语速 (0.5-2.0) | 1.0 |
--voice-file | 用于克隆的自定义 WAV 文件 | 无 |
--serve | 启动 HTTP 服务器 | False |
--list-voices | 列出所有语音 | 错误 |
要求
- Python 3.10-3.14
- PyTorch 2.5+ (CPU版本可用)
- 可在2个CPU核心上运行
注意事项
- ⚠️ 模型需授权访问 - 请先在Hugging Face上接受许可协议
- 🌍 仅支持英语 (v1版本)
- 💾 首次运行会下载模型 (~1亿参数)
- 🔊 音频以1D PyTorch张量形式返回 (PCM数据)
链接
文章底部电脑广告
手机广告位-内容正文底部


微信扫一扫,打赏作者吧~