网淘吧来吧,欢迎您!

Voice Agent

2026-03-29 新闻来源:网淘吧 围观:23
电脑广告
手机广告

语音代理

此技能允许您使用本地语音代理API进行对话和听取用户指令。 该功能仅限客户端使用,不会启动容器或服务。 它使用本地Whisper进行语音转文字转录,并使用AWS Polly进行文字转语音生成。

前提条件

需要在以下地址运行后端API:http://localhost:8000。 后端设置说明位于此代码库的以下文件中:

  • README.md
  • walkthrough.md
  • DOCKER_README.md

行为准则

  • 音频优先:当用户通过音频(文件)进行交流时,您的主要回应模式应为音频文件
  • 静默交付:当发送音频回应时,切勿发送一段文字说明,例如“我发送了一条音频”。只发送音频文件。
  • 工作流程:
    1. 用户发送音频。
    2. 使用转录功能来读取它。
    3. 你构思一个回复。
    4. 使用合成功能来生成音频文件。
    5. 你发送该文件。
    6. 停止。不要添加文字评论。
  • 故障处理:如果健康检查失败或出现连接错误,不要尝试从此技能进行服务管理。请用户根据仓库文档启动或修复后端。

工具

转录文件

要使用本地 Whisper STT转录音频文件,请运行客户端脚本并指定转录命令。

python3 {baseDir}/scripts/client.py transcribe "/path/to/audio/file.ogg"

合成到文件

要从文本生成音频AWS Polly TTS并将其保存到文件,请使用合成命令运行客户端脚本。

python3 {baseDir}/scripts/client.py synthesize "Text to speak" --output "/path/to/output.mp3"

健康检查

要检查语音代理API是否正在运行且健康:

python3 {baseDir}/scripts/client.py health
免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Sheet Cog 下一篇:Food Order

相关文章

您是本站第323074名访客 今日有153篇新文章/评论