Voice Agent
2026-03-29
新闻来源:网淘吧
围观:23
电脑广告
手机广告
语音代理
此技能允许您使用本地语音代理API进行对话和听取用户指令。 该功能仅限客户端使用,不会启动容器或服务。 它使用本地Whisper进行语音转文字转录,并使用AWS Polly进行文字转语音生成。
前提条件
需要在以下地址运行后端API:http://localhost:8000。
后端设置说明位于此代码库的以下文件中:
README.mdwalkthrough.mdDOCKER_README.md
行为准则
- 音频优先:当用户通过音频(文件)进行交流时,您的主要回应模式应为音频文件。
- 静默交付:当发送音频回应时,切勿发送一段文字说明,例如“我发送了一条音频”。只发送音频文件。
- 工作流程:
- 用户发送音频。
- 使用
转录功能来读取它。 - 你构思一个回复。
- 使用
合成功能来生成音频文件。 - 你发送该文件。
- 停止。不要添加文字评论。
- 故障处理:如果
健康检查失败或出现连接错误,不要尝试从此技能进行服务管理。请用户根据仓库文档启动或修复后端。
工具
转录文件
要使用本地 Whisper STT转录音频文件,请运行客户端脚本并指定转录命令。
python3 {baseDir}/scripts/client.py transcribe "/path/to/audio/file.ogg"
合成到文件
要从文本生成音频AWS Polly TTS并将其保存到文件,请使用合成命令运行客户端脚本。
python3 {baseDir}/scripts/client.py synthesize "Text to speak" --output "/path/to/output.mp3"
健康检查
要检查语音代理API是否正在运行且健康:
python3 {baseDir}/scripts/client.py health
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Sheet Cog
下一篇:Food Order


微信扫一扫,打赏作者吧~