Speech To Text
2026-03-31
新闻来源:网淘吧
围观:12
电脑广告
手机广告
语音转文本
通过inference.sh命令行界面

将音频转录为文本。
curl -fsSL https://cli.inference.sh | sh && infsh login
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://audio.mp3"}'
快速开始安装说明:该安装脚本
仅检测您的操作系统/架构,从dist.inference.sh下载匹配的二进制文件,并验证其SHA-256校验和。无需提升权限或后台进程。也提供
手动安装与验证
| 。 | 可用模型 | 模型 |
|---|---|---|
| 应用ID | 最佳适用场景 | 快速Whisper V3 |
| infsh/fast-whisper-large-v3 | 快速转录 | Whisper V3 大型 |
infsh/whisper-v3-large
基础转录
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://meeting.mp3"}'
带时间戳
infsh app sample infsh/fast-whisper-large-v3 --save input.json
# {
# "audio_url": "https://podcast.mp3",
# "timestamps": true
# }
infsh app run infsh/fast-whisper-large-v3 --input input.json
翻译(至英语)
infsh app run infsh/whisper-v3-large --input '{
"audio_url": "https://french-audio.mp3",
"task": "translate"
}'
来自视频
# Extract audio from video first
infsh app run infsh/video-audio-extractor --input '{"video_url": "https://video.mp4"}' > audio.json
# Transcribe the extracted audio
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "<audio-url>"}'
工作流程:视频字幕
# 1. Transcribe video audio
infsh app run infsh/fast-whisper-large-v3 --input '{
"audio_url": "https://video.mp4",
"timestamps": true
}' > transcript.json
# 2. Use transcript for captions
infsh app run infsh/caption-videos --input '{
"video_url": "https://video.mp4",
"captions": "<transcript-from-step-1>"
}'
支持语言
Whisper支持99种以上语言,包括: 英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语、印地语、俄语等。
使用场景
- 会议:转录录音
- 播客:生成文字稿
- 字幕:为视频创建字幕
- 语音笔记:转换为可搜索文本
- 访谈:用于研究的转录
- 无障碍访问:使音频内容可访问
输出格式
返回JSON格式,包含:
文本完整转录分段内容:带时间戳的分段(如要求)语言:检测到的语言
相关技能
# Full platform skill (all 150+ apps)
npx skills add inference-sh/skills@inference-sh
# Text-to-speech (reverse direction)
npx skills add inference-sh/skills@text-to-speech
# Video generation (add captions)
npx skills add inference-sh/skills@ai-video-generation
# AI avatars (lipsync with transcripts)
npx skills add inference-sh/skills@ai-avatar-video
浏览所有音频应用:infsh app list --category audio
文档
文章底部电脑广告
手机广告位-内容正文底部
上一篇:wechat-auto-reply
下一篇:OpenClaw浏览器自动化配置


微信扫一扫,打赏作者吧~