1. 应用户倡议,开辟音频转录字幕功能,按音频时长(秒)计费,可通过点数兑换转录时长(1点=120秒);

2. 由于视频文件过大,仅支持上传音频文件,主流格式都支持,可使用剪影、PR等软件通过视频导出音频;

3. 推荐上传wav音频格式(16K采样率),该格式无损,识别效果好,不易丢失句子

4. 本站接入多个转录模型,由于各模型擅长语种不同,故会根据源语言自动推荐最佳的模型;

5. 不同转录模型的价格、速度、特性各不同,具体请看页面下方的【转录模型比较】表格;

6. 为方便用户,每个转录订单会同时提供srt字幕文件、txt文本文件,并同时提供多个【标点符号】版本;

7. 对于执行失败的订单,系统会自动退返『转录时长』;

8. 转录功能公测中,欢迎您反馈bug与建议,我们会酌情给予点数奖励。客服QQ:2801088826

【2024.10.20】Whisper-large-v3模型字母语言智能断句函数进行了优化,对长句子进行了语义断句处理。
【2024.10.19】Nova2模型字母语言智能断句函数进行了优化,修复潜在的时间轴错误,对长句子进行了语义断句处理。

转录功能仅对VIP会员开放

拖拽或上传音频文件(推荐wav格式)

请先选择源语言

显示更多
  • 消耗转录时长0(账户转录时长:0秒
  • 标点符号
    完整
    去尾

帮 助 说 明

计费方式:

按音频时长(秒)计费,可通过点数兑换转录时长(1点数=120秒)

补充说明

① 推荐上传wav音频格式(16K采样率),该格式无损,识别效果好

② 上传音频文件最大1GB,保留3天后自动删除

③ 每个订单会同时提供srt字幕文件、txt文本文件;

④ 每个订单会同时提供多个【标点符号】srt版本,中文会提供3种标点符号版本(完整、去尾、无),其他语言会提供2种版本(完整、去尾);

⑤ 不同模型会有自己的特有参数,具体在选择模型后可以看到;

⑥ 智能断句的模型:Whisper-large-v3(字母语言)、腾讯(中文)、Nova-2(字母语言);

⑦ 支持多个源语言的模型:[腾讯]普方英、[腾讯]中英粤、Whisper-Zero,默认识别出来的是对应的源语言,而不是统一的某个语言(可使用本站的谷歌/AI接口翻译成统一语言);

⑧ 部分模型支持填写热词,以提高识别准确度,最多可填写100个词汇,使用英文逗号,分割,可以填写对应源语言,文字、单词、带空格的短语都支持。

⑨ 待开发功能:音频降噪预处理、多语种统一翻译

转录模型比较

模型 定价 速度 时长上限 支持语言 特点
Distil-Whisper-large-v3 基础时长*0.2(0.007-0.02元/分钟) 较快 5小时 英语 whisper改进版本,无幻觉,英语专用,性价比高
缺点:默认算法断句、部分时间轴略微提前、速度一般、午夜易超时
Whisper-large-v3 基础时长*0.4(0.014-0.04元/分钟) 一般 5小时 主流语言56种 whisper原版最强型号,各语种都比较擅长,字母语言智能断句
缺点:存在轻微幻觉、部分时间轴略微提前、速度慢、午夜易超时
腾讯系列 基础时长*1(0.035-0.1元/分钟) 极快 5小时 普通话、方言等 中文识别首选,智能断句,速度快
缺点:多语种识别结果语言不统一
[腾讯]普方英 基础时长*1.5(0.05-0.15元/分钟) 极快 5小时 普通话+方言+英语 普通话+方言+英语识别首选
缺点:识别结果语言不统一
Nova-2 基础时长*1.5(0.05-0.15元/分钟) 极快 5小时 主流语言31种 擅长字母语言,字母语言智能断句,速度快
缺点:价格略贵,非字母语言断句可能有瑕疵
Whisper-Zero 基础时长*3(0.105-0.3元/分钟) 较快 135分钟 主流语言56种 whisper改进版本,无幻觉;擅长字母语言,支持多个源语言
缺点:价格贵,多语种识别结果语言不统一

已加入后台任务,可关闭本页面,稍后到【转录订单】查看详情

说明:不同模型耗时不同,具体耗时可参考等待时间