Whisper+剪映制作精听材料

请教:你现在是如何使用whisper的?就用官方的原版+命令行?还是其他改版或客户端?

我现在首先用Subtitle Edit带的Whisper跑一遍,如果碰到严重错误(Whisper时不时会碰到重复某一句话的bug),就换带vad功能的Whisper webui(命令行)跑一遍。

1 Like

我又发现一个非常准的项目
https://github.com/r4victor/syncabook
这个是将audiobook与ebook对齐,制作出带音频、可以按句播放的ebook。
原理是先用TTS生成文本的音频,再与audiobook的音频进行对比,来进行对齐。速度飞快,2小时的音频大概不到2分钟就处理完。原理与 aeneas相似,但是比aeneas准。
这里是作者的演示视频

我拿自己的材料测试了一下,确实非常准。

只不过有两个问题:

  1. 这个只针对ebook,用的是epub支持的smil格式,没找到能直接转成srt的办法,如果要为视频配字幕,需要后期处理;
  2. 可能是为ebook考虑,这个的处理方式是一句话的end与下一句的start是一样的,这种方式并不适合视频字幕,这个比较致命。

所以比较适合的场景除了ebook以外,就是从头到尾都有人声的Pod、访谈、课程等。
有兴趣的可以试试。

4 Likes

试试下面这个?

背靠的是基于 C++优化的 GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++ 项目,

实际效果:在我3年前花3500买的轻薄本上速度比官方的版本快得多,medium模型识别时间基本与视频时长一致

1 Like

Subtitle Eidt 集成了多种引擎,可以自由选择,还能批量处理:

You can use one of these Whisper versions:

1 Like

前几天试过基于字幕组的时间轴切分音频,丢给 Whisper 重新识别,可惜行不通——估计和 Whisper 的算法有关,上下文丢失过多,导致识别效果下降;而且幻听的现象非常严重……

目前用过来效果最好的还是Whisper+剪映,就是剪映这5000字符限制太过恶心

经常用Whisper生成课程字幕,专业术语准确率不高,观感上是一分钟可以看到一两个错误,制作精听材料不好说,帮助听课是完全够用的。

5000字符限制是有意为之,掉标点符号也应该是有意为之。

剪映的音频文本对齐功能大概一两分钟就会出一个基本时间轴错误,主要集中在句首,不是快了一两秒、两三秒,就是慢了一两秒、两三秒,一般此时句子的第二个单词时间轴就正常了,但是,剪映只能输出srt格式,导致整句时间轴偏移。

Adobe Premiere的时间轴倒是异常准确,一字不差,只是这货只能识别,不能音频文本对齐,识别的精度又不够,断句更是依托答辩。Adobe Premiere也只能输出srt格式,如果能把它的prtranscript格式利用一下,和剪映、Whisper、 syncabook等进行多软件、多模型的交叉机校,然后标记手校,大概就可以做出比较完美的字幕了。

1 Like

我试用的剪映倒是没碰到你说的问题,至少20分钟一集都是准的。
只是要分两三次贴实在是太烦

听说达芬奇18.5beta可以做到英文语音的文稿匹配,不过我对那软件不熟悉,有谁了解的吗?

你去下来试试呗。又不是要学会这种大型软件怎么用,只是找到其中一个做字幕的小功能,学习成本应该不高。
其实还有个成本问题,我知道还有一两个软件似乎也挺准的,但是收费都是每个月几十刀,用不起。

我看过的,只要是离线版的都是用的whisper.cpp,收费版相对封装的更好,普通用户更容易上手。

你好,你说收费每月几十刀的能告诉我吗 我目前也是发现whisper 识别可以 没有发现不太精准的地方,时间戳还算可以,现在遇到的问题是.我看的英文视频的.识别成英文字幕后,翻译成中文是个大问题,尝试过.用过多种翻译软件没有一款能翻译匹配的.比如用谷歌,deppl,gpt3.5 api等等只能逐行翻译.不能上下文,如何上下文了就无法对齐这句话和时间戳对齐,我看最后发帖时间是5月底,现在7月初了 目前有好的解决方案吗

几十刀说的是字幕时间轴对齐,对你无用吧。
至于机器翻译,目前就是处在看起来还不错,仔细看有问题的阶段。GPT3.5应该是可以上下文的,不过用了之后觉得也就那样,没比deepL、有道强,当然Google是稍微有点落后了。GPT4.0没试过,想要上下文关联且更高质量的话,我觉得你可以优先去试试这个。
另外字幕翻译的话如果先将拆成几段的合并成一个整句,再让deepL、有道之类的翻译,效果会好很多。这个subtitle edit就可以搞。

subtitle edit自动化度不高一行一行合并太累了 上千行.不能挨个对一遍.学习视频内容.干成字幕人员了/.太难了

你试过Auto-translate→Merge Sentences没有?一键合并啊

1 Like

试过了 .几千行直接合并到几十行.不合适

不知道是不是我设置的问题.我用一键合并会把上百行 ,或者上千行的内容合并成几十行 大约在30行以内 .是不是还要其他设置配合才可以.我在设置中常规中.有一个选项 合并小于此长度的行 如何设置 它也是一样的效果 .你试过一键合并的设置吗 如何设置

理解了这个一键合并的意思.它是用来合并所有行减少到最少.用来做翻译的.这样所有的行都合并利于翻译的整体性