Whisper+剪映制作精听材料

虽然现在英语精听材料非常多了,但是有对别人做好的那些不感兴趣只想看自己想看的材料的需求。网上一搜有很多用Aboboo制作课件的教程,但是太费时间和精力了,有这时间不如多看点片。
不过现在确实出现了一个不费太多人力就能制作自己想看的材料的办法,就是Whisper+剪映。
Whisper之前讨论过,字幕的准确度非常惊人;但是也有缺点,就是时间轴时而准时而不准,作为泛听材料是足够了,但是作为精听材料就不太行,想要采集句子制作anki卡片也是困于这一点。去找过一大堆字幕对齐的软件,包括腾讯云、阿里云、VideosrtPro,都不太行,经常是一开始是准的,突然某处开始飘了。
直到发现剪映的对齐功能非常强大,几乎完全是准的,准确度接近字幕组的水平,完全可以当做精听材料来用。
于是方案很简单,先用Whisper做出字幕,然后将字幕导出到txt,再去剪映,文本→智能字幕→文稿匹配跑一遍就行了。(为什么不直接用剪映识别字幕呢,当然是因为效果不如Whisper了)
效果参见附件。附件是YouTube上随便找的一个视频,视频太大只上传了音频和字幕。
视频地址在The Most Realistic Video Game Ever - YouTube
test.zip (4.7 MB)
也可以下来配字幕看。

这里有个小问题是,剪映会删掉字幕里的逗号和句号,解决办法是随便加一个特殊字符,比如把,替换成~,把.替换成~.然后丢给剪映,做出来的字幕就会原样保留,然后删除~就可以了。
现在还有个大问题是,剪映的文稿有5000字符限制,于是稍微长一点的视频就得先分割,分别制作后再合并,非常耗费人工,而这本来毫无必要。大家可以多去反馈意见,没准反馈的人多了能引起官方重视。剪映这个软件的更新还挺频繁的,只要重视起来没准就解决了。

7 Likes

YouTube 上自带的字幕效果不行吗?我看也挺准的呀

今早收到了win11的更新
2023-适用于 Windows 11 Version 22H2 的 05 累积更新,适合基于 x64 的系统 (KB5026446)
win系统实时字幕开始支持多语言了:goutou:

1 Like

笨办法:Whisper + excel + ffmpeg
Whisper得到字幕后,excel记下要制作的开始结束时间,{怕对不齐就前后加1,2秒}
一行一条
别的列补齐ffmpeg 需要的参数及其他
复制了之后替换tab为空格,另存为bat文件,运行一遍

1 Like

你比较一下我上传的这个和YouTube的字幕,就能看出差别了。YouTube字幕断句乱七八糟,不区分大小写,至于本身的准确性也不行就不说了,只适合随便看看。

我当然知道现在有无数的生成字幕的办法,可以说效果都“还不错”。但是我想要的是字幕组/官方字幕水平的字幕(包括文本的准确性和时间轴的准确性),现在这个办法出现了。

1 Like

很棒的经验,感谢分享。

我也补充两个:

1、 Subtitle Edit :如果已经有英文的字幕要翻译为中文,还可以对照修订双语字幕。

2、 Aegisub 精确调整时间轴

优点:免费/开源软件,极其强大。
缺点:打轴费劲,纯手工。

这套方案也适用于那些冷门的、老旧的无字幕的作品,不用等字幕组(也等不到),自己滑动几下鼠标就做好了字幕,如果不学英语,搞个机器翻译看看也大差不差。
对字幕组应该也是好事,以后大概就是在机器翻译下改改就行,再也不用调轴了。

只可惜剪映这个5000字符限制太过恶心,要是英文的话,往往10分钟就超了。剪映是字节抢市场搞的全免费的软件,按理说没必要搞这种限制。我试了试贴一段12万字符(2个半小时)的文本进去直接卡死,没准只是设计上的缺陷导致不得不加这个限制,说不定就是这个傻x文本框的问题。只要推倒重写,改成后台打开txt也许就可以解决,就看能否引起重视了,所以有需求的多去反映。

刚更新了,哪里设置多语言?

点右下“网络音量图标”,点辅助功能,打开实时字幕
点确定等待下载中文简体实时字幕
点字幕窗口右上设置,点字母语言,可以调换语言
原装是英语美国,更新之后有了中文简体
我开的是中文简体,视频中的中英混说的情况下也能用

你看下更新历史,版本号是这个吗
KB5026446

打开实时字幕的时候,没有提示下载中文简体实时字幕
另外窗口右上也没看到有设置 :flushed:

是这个版本的

1 Like

刚才更新了以为是这个版本了。刚又更新了一个,现在可以了,正在下载实时字幕语言

2 Likes

WhisperX 这个项目可以解决时间轴精确对齐问题: 它是word-level timestamps,完全可以不用剪映了。相关的视频介绍:

没用。我最早用的就是whisperx,它这个的用途是单词级的字幕。它的工作方式是根据whisper的每条字幕的时间轴去分割该条字幕的单词做成单词级的字幕;它会去识别这句字幕中的每个单词,识别出来的,当然就是准的,识别不出来的,根据前后识别出来的单词猜一个位置。确实,可以通过将单词级的字幕再根据句号合并成单句字幕。在whisper字幕偏移不太大的时候,能够一定程度上实现校准。但我们知道,whisper的字幕经常会不准,有时候会偏移较大,这时候的所谓单词级就是胡乱凑一下而已。换句话说,所谓单词级字幕的准确度,是建立在whisper本身的时间轴足够准确的前提之下的,于是问题又绕回来了 :joy:

你好,我想知道如何用Whisper 做出字幕文本文件,就是音频或视频如何得到文本,谢谢

1 Like

whisper有各种编译版本,有命令行的,也有GUI的。最推荐的傻瓜式的软件是Subtitle Edit带的,支持批量处理,也支持GPU,而且Subtitle Edit本身在字幕编辑上非常强大好用。
用法是视频→语言识别(Whisper)

如果显卡不行的话,速度是有点慢的,这时候推荐去蹭Google Colab上部署的项目。例如这个N46Whisper/README_CN.md at main · Ayanaminn/N46Whisper · GitHub

看官方的案例,效果已经很好了

1 Like

实际用一下就知道了。Whisper本身就是大部分的时间轴是准的,或者大致准的,这部分Whisperx当然也准;但是时不时会有偏差很大的,这时候就完全不行了。

说到底就是90分与99分的区别,现在的语音识别普遍有90分的水平,所以很长时间大家都觉得挺好用了,但是Whisper突然搞出了一个准确度99分的,然后大家发现原来还可以这么好。
同样地,剪映的时间轴对齐也达到了99分的水平,而Whisper的时间轴只有八九十分。

1 Like