Audio Cog
Audio Cog - 由CellCog提供支持的AI音频生成
使用AI创建专业音频——旁白、音乐、音效和个性化虚拟形象语音。
CellCog提供三种语音提供商,各有不同优势。请根据您的需求选择:
| 场景 | 提供商 | 原因 |
|---|---|---|
| 标准旁白/配音 | OpenAI | 最佳的语音风格控制,质量稳定 |
| 情感化/戏剧性表达 | ElevenLabs | 最丰富的情感范围,支持情感标签 |
| 克隆语音(虚拟形象) | MiniMax | 唯一支持语音克隆的提供商 |
| 具有特定口音的角色语音 | ElevenLabs | 100+种多样化的预制语音 |
| 精细的音调/语速/音量控制 | MiniMax | 精细语音设置 |
前提条件
此技能需要cellcog技能以进行SDK设置和API调用。
clawhub install cellcog
请先阅读cellcog技能以完成SDK设置。此技能向您展示可实现的功能。
语音提供商
OpenAI(默认)
最适合标准旁白、配音及需要精确控制的单人语音内容。
核心优势:支持自然语言风格指令——可描述所需的口音、语调、节奏和情感。
8种内置语音:
| 语音 | 性别 | 特征 |
|---|---|---|
| 雪松 | 男声 | 温暖、浑厚、权威、可信 |
| 海风 | 女声 | 明亮、清晰、情感灵活、专业 |
| 民谣 | 男性 | 流畅、旋律优美、富有音乐感 |
| 珊瑚 | 女性 | 充满活力、生动、动态、精神饱满 |
| 回声 | 男性 | 平静、有分寸、深思熟虑、从容不迫 |
| 智者 | 女性 | 智慧、沉思、反思 |
| 微光 | 女性 | 柔和、温柔、舒缓、平易近人 |
| 诗句 | 男性 | 富有诗意、有节奏感、艺术性强、善于表达 |
最佳品质:雪松(男性),水手(女性)。
风格定制示例:
- "温暖的交谈语气,中等语速,提及功能时略带热情。美式口音。"
- "低沉、沙哑、神秘莫测,带着缓慢而刻意的节奏——典型的真实犯罪叙事风格。"
- "浓重的法国口音,优雅而友善,中等语速并带有刻意的停顿。"
ElevenLabs
最适合情感表达、戏剧性内容、角色配音和有声书旁白。
核心优势: 情感标签直接嵌入文本中——[笑声]、[叹息]、[低语]、[兴奋]、[讽刺]等。此外还提供100多种多样化的预制语音。
情感标签(请谨慎使用——每段落1-2个):
| 标签 | 效果 |
|---|---|
[笑声] | 自然的笑声 |
[轻笑] | 轻柔/简短的笑声 |
[叹气] | 叹气声 |
[倒吸一口气] | 惊讶/震惊 |
[低语] | 低语表达 |
[停顿] | 自然停顿/节拍 |
[悲伤],[快乐],[兴奋],[愤怒],[讽刺] | 情感表达 |
示例提示:
"使用ElevenLabs生成语音,采用温暖的英国男性嗓音: '然后,就在所有人都以为一切都结束了的时候……[停顿][低语]其实并没有。'"
MiniMax
最适合克隆语音(虚拟形象)和精细的语音控制。
关键优势:MiniMax Speech 2.8 HD —— 具备录音室级别的音频品质。支持通过头像克隆生成个性化语音身份,并内置17种以上标准预制声音,可对语速、音调和音量进行精细调节。
标准音色包括: 深沉男声、沉稳女声、随性男声、活泼女声、睿智女声、亲切人声、年轻骑士、优雅男声等更多选择。
语音参数设置:情感(喜悦/悲伤/愤怒/中性等)、语速(0.5–2.0倍速)、音量(0–10级)、音高(-12至12半音)。
头像/克隆语音
用户可以在CellCog上创建带有个人克隆语音的数字分身。当数字分身拥有克隆语音时,CellCog会通过MiniMax服务商生成与该用户音色相似的语言。
实现原理:
- 用户在cellcog.ai创建数字分身并上传声音样本
- CellCog通过MiniMax Speech 2.8 HD技术克隆用户声纹
- 所有调用该数字分身的音频请求都将使用其克隆语音
示例指令:
"用我的数字分身'露娜'的声线生成语音:'欢迎参加季度汇报,今天我很荣幸能与各位分享卓越成果。'"
这项功能能有力打造风格统一、个性鲜明的定制内容——无论是营销视频、播客开场还是课程讲解,都能以用户本尊声线呈现。
音效生成(SFX)
CellCog可根据文本描述生成独立音效。版权无忧,时长0.1至30秒。
示例指令:
- "生成10秒暴雨敲击金属屋顶并伴随间歇雷鸣的音效"
- "制作5秒踩踏蓬松新雪的清脆脚步声效"
- "生成大型空仓库中的回荡式摔门音效"
音效优化建议:
- 请具体描述材质和环境
- 当确切时长很重要时,请指定持续时间
- 对于超过30秒的环境音效,生成一个短的可循环片段,并使用ffmpeg进行扩展
音乐生成
根据文本描述创作原创音乐。时长从3秒到10分钟。免版税。
能力:
- 任何流派或流派融合
- 器乐和人声轨道(如需人声请指定)
- 复杂的编曲、情绪过渡和能量动态
- 描述您的需求——模型会处理乐理部分
示例提示:
- "创作2分钟平静的Lo-Fi嘻哈背景音乐,带有轻柔的钢琴和柔和的节拍,75 BPM"
- "生成一段15秒的欢快科技播客开场音乐"
- "创作90秒的电影管弦乐——以柔和、鼓舞人心的方式开始,逐渐推向自信的高潮"
- "生成一首3分钟的流行歌曲,关于夏日冒险,带有女声演唱"
如需精确的分段控制(每段的确切时长),请详细描述您的作曲计划——CellCog会处理结构安排。
所有生成的音乐均为免版税——可商业使用,无需署名或支付许可费
多语言支持
所有三个语音提供商均支持40多种语言。请提供目标语言的语音文本:
英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文(普通话/粤语)、日语、韩语、印地语、阿拉伯语、俄语、波兰语、荷兰语、土耳其语等
聊天模式
对所有音频任务使用chat_mode="agent"。音频生成在代理模式下高效执行——无需代理团队
优质音频提示
- 选择合适的提供商:标准叙述选OpenAI,情感/戏剧性表达选ElevenLabs,克隆声音选MiniMax
- 提供完整脚本:准确写出应朗读的内容——避免使用"关于我们产品的介绍"这类模糊表述
- 包含风格指导:"自信而温和"、"缓慢而慎重"、"略带兴奋"
- 对于音乐指定时长、情绪、风格和节奏(如果知道的话,请注明BPM)
- 发音指导: 对于名称或专业术语,添加提示:“CellCog(发音为 SELL-kog)”
- 对于ElevenLabs情感标签: 请谨慎使用——每段1-2个。标签会影响其后所有文本,直到出现新标签为止。


微信扫一扫,打赏作者吧~