Whisper+剪映制作精听材料

它这个合并的原理很简单,就是判断有没有句号,有句号就合并。按理说不会出现一大堆合并到一句的情况,除非原始字幕有问题,就是句末缺句号。subtitle edit同样提供了解决办法,就是补上缺失的句号,你找找,有个菜单项是修复句号,原理是根据下一句字幕开头是不是大写来判断。总之subtitle edit的做法都是简单粗暴,但是足够好用。

文字准确还行但它字幕不按句号分段啊,半句半句卡着挺难受的

Subtitle Edit →Auto-translate →Merge Sentences

2 个赞

Thanks♪(・ω・)ノ 确实解决了一些问题,但好像只能合并不能按句号分割,它本身识别出来有很多行都是句子中间有句号的,导致每行很长。。我用的是const-me base.en 不知道有没有什么方便的解决办法。

用large-v2会好很多,但也有时也会大量出现断句问题。用vad切割可以大幅减少这个问题,但又会带来时间轴错位的问题。总之Whisper文字识别是准,但是各种小毛病不断,尤其是时间轴。我的建议是各种版本的Whisper(不同的编译版本的默认参数不同,导致做出来效果不同,有时候这个版本的这段有问题,有的那段有问题)多做几个字幕,有问题了切换。
另外一个办法是Whisper做出来的字幕用剪映对齐一遍重新生成时间轴,但是剪映有5000字符一次的限制,需要反复切割合并字幕,非常恼人。
总之结论就是凑合着看得了,要精读还是找那些有官方或字幕组字幕的。

1 个赞

对于学习使用,默认的已经很可以了,通常也就是提示一下。

对于制作视频之类的up主,还得自己精调一下,没有完美的。

1 个赞

用得多了就会碰到,大片大片地时间轴错位和反复重复一句话。所以就算是凑合着看,体验也不好。可惜OpenAI现在也是大企业病了,这问题无数人反映过,但是完全没有更新了。

我试了一下 我上传的听力 | 每日英语听力 (eudic.net)
还挺准的。上传文本生成同步字幕

1 个赞

Macbook 怎么设置实时字幕呀?

首先,你得给苹果电脑装个windows系统。。。

  1. Download and install VLC media player from the official website (Official download of VLC media player, the best Open Source player - VideoLAN) if you don’t have it already.
  2. Open VLC media player and go to “Preferences” under the “VLC” menu (or press Command + ,).
  3. In the Preferences window, make sure the “Show All” option is selected at the bottom left corner.
  4. Expand the “Subtitles/OSD” category and select “Text renderer” from the left sidebar.
  5. In the “Text renderer” settings, check the box next to “Enable subtitles” and select “LRC files” from the dropdown menu.
  6. Click on the “Save” button to apply the changes and close the Preferences window.
  7. Now, place the LRC file in the same directory as the MP3 file and make sure they have the same name (except for the file extension).
  8. Open the MP3 file in VLC media player by either dragging and dropping it onto the VLC window or using the “Open File” option under the “File” menu.
  9. The LRC file should automatically be detected and loaded by VLC. If not, you can manually load it by going to the “Subtitles” menu and selecting “Add Subtitle File”.
  10. Play the MP3 file, and the LRC file should be synchronized with the lyrics displayed in real-time.

Note: VLC media player provides various customization options for subtitles, including font size, color, and position. You can adjust these settings by going to the “Subtitles” menu and selecting “Subtitles Track” or by right-clicking on the subtitle display area during playback.

近期用Whisper比较多,于是各种奇葩问题也碰到得多,终于有点不堪忍受。于是就想试试其他的AI字幕工具。主要测试了剪映(字节)、智影(腾讯)、阿里云、Premiere2023(Adobe)、DaVinci Resolve18.5
我的需求主要是看片的时候用mpvacious顺手一键制作anki卡片。这涉及到2个要求:1. 时间轴要准确;2.断句要合理。当然,字幕本身是越准确越好。
在我测试的字幕工具里,也就Whisper不满足1,其他都是满足的。
但是本来不是问题的2反而出现很多问题。
国产软件普遍有把英文字幕按中文方式输出的问题。比如剪映没有句号,句首字母也不大写。由于制卡要求一句话完整,所以我都会用Subtitle Edit将句子合并。在没有句号和首字母大写的情况下,这一步无法进行,所以首先排除剪映(所以剪映的准确性也没看)。
智影的句首字母倒是有大写,但是没句号。Subtitle Edit实际上有补完缺失句号的功能,原理是判断下一句句首字母是否大写。但是说到底还是有点问题,所以智影也排除。另外,腾讯云的AI字幕跟智影实际上是一回事。
阿里云倒是没其他国产软件的毛病,输出正常格式的字幕。阿里云的字幕出现脏话还自动打码的。。
于是字幕质量实际上也就比较了阿里云、Premiere、DaVinci、以及Whisper。由于样本量极少,评测也是非常主观,所以随便看看就好。
字幕准确度上,毫无疑问Whisper最强,经常在其他几款都错的情况下,Whisper就能对。
阿里云和Premiere不相伯仲,错误率还是蛮高的,而且由于识别错误,导致断句也受影响。
令人惊喜的是DaVinci的识别准确率相当可以,一定程度上能追赶Whisper。但是DaVinci有个奇葩的毛病,就是经常不按句号断句。如果两句话之间间隔较大,那么断句没问题;但是如果是一长段话,就会断在中间。于是如果用Subtitle Edit合并,就会三四句话合并到一起。
总之就是没有找到特别完美的方案,不过暂时打算用DaVinci试试了。

另外,其实每日英语听力的AI字幕我也试了一下,感觉似乎还挺准的。但是存在几个问题:1. 有时候会丢失好几句;2. 只有PC版才能导出,但是经常有bug,明明手机版能够看到AI字幕识别完成,但是PC版依旧显示没有字幕;3. 最长1小时限制,我这经常看的是1小时多几分钟的,要切割,就非常难受。智影的限制是4小时,就好很多。

能给个成品epub看看吗,我试了半天没装上这玩意,要是好用我再折腾折腾

Whisper时间轴到处飘,烦不胜烦,本来都打算弃用了,结果去扫了一眼WhisperX,发现今年五月份有次大更新(3.1.1),已经变得非常好用(我之前是三、四月份试用的)。
大致上比较大的变化是:采用了faster-whisper,速度提高了好几倍,显存占用大幅减小;按句子定区段,时间轴准确性大幅提升;可以区分人物(这个没啥需求)。
目前的WhisperX相比Whisper,时间轴的稳定性大幅提升,虽然Whisper瞎生成字幕的问题依旧存在;某些句子的时间轴偏移太大依旧没有修正,但是那些偏移不太大的句子的时间轴已经变得相当的准,不会时前时后了。
但是实际用下来,发现了一个问题,就是它每行字幕的end采用的下一行字幕的start,于是这行字幕会一直显示,直到下一句台词,这在访谈一类时刻说个不停的节目是没啥问题,但是对于影视剧还是挺不爽的。不过看了一下其实它的单词级的json文件里有每句话最后一个单词的end时间轴,于是就写了个脚本进行修正;之后又发现它每行字幕的start有时会延后,end有时又结束得略早,不太符合一般的观影习惯,又做了点微调,即start-0.15s,end+0.2s,这样处理之后90%以上达到了字幕组的水平。该脚本全程由ChatGPT完成,只用中文表述需求,一字未改。
目前存在的问题:

  1. Whisper莫名其妙添加字幕的问题依旧存在,不过由于采用了vad,该问题已经大幅减少;
  2. 某些行的字幕依旧大幅偏移,多出现在短句,或者背景嘈杂,或者中间无对白时间较长的情况,已经不是很多;
  3. 按句子定字幕,存在有时句子太长、有时句子太短的问题,其实不太符合观影习惯,但是倒符合精度材料的需求;
  4. 由于采用了vad,有时候某些句子会消失(Whisper反而能识别出来),好在不是很多。
    建议制作两份,以修正后的WhisperX的字幕为主,以Whisper生成的字幕为辅。
    WhisperX项目地址GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)
    Whisper推荐使用 whisper-standalone-win
    脚本
    fix_whisper.py (2.3 KB)

脚本使用方法:python fix_whisper.py filename.json

2 个赞

这个直接装确实会各种失败,建议装docker版。效果看上面的YouTube演示视频就行,就这效果,一点没吹牛。
另外,每日英语听力的对齐也能达到这种效果,只是有每个文件1小时限制,需要拆分。
同样地,这个项目和每日英语听力都有相同的问题,即每行字幕的end等于下一行字幕的start,于是就不适合影视剧的对齐,但是小说、访谈、新闻、纪录片等不停地说的材料没什么问题。

这个我后来弄出来了,但是我平时所有书放在Apple Books,在Apple Books中只支持pre-paginated的media overlay epub,不想多弄一个阅读软件,所以放弃了。
实际上用听阅app就有这功能,没必要自己制作。

每日英语听力比syncabook好在,在文字和音频有出入的情况下,每日英语听力匹配高亮的准确率要高很多,几乎不怎么出问题,但是我的需求就只是制作epub3,同步音频文本,每日英语听力app定位就不是完全为电子书服务的,所以阅读模式下尤其是手机上的bug还是挺明显的。

1 个赞

试过听阅,我觉得目前app价格定位过于离谱,bug太多,尤其是epub3阅读和制作这一块。

1 个赞

请教兄台,若要求不高,不需全然的语音和 captions 同步,错误率不高既可,针对没有captions的影片可自动的产生出 ,哪一种是比较简单实用的,可否推荐和指引,谢谢啦!

目前最推荐的就是WhisperX,具体介绍去翻翻上面的回帖,基本上错误率可以接受了。