Whisper+剪映制作精听材料

剪映的对齐应该是目前效果最好的,其他的都明显不如,剪映的对齐即便不完美,起码可用,其他那些都会出现大片大片的严重偏离,基本不可用。但是剪映的界面实在是不方便操作,脚本跟踪控件估计也不是那么容易写,而且要想切割出5000字符的文本和对应的音频其实也相当麻烦。总体而言此类无法脚本化的商业软件我觉得还是趁早抛弃。
我后来又比较了一下Whisperx和whisper-timestamped,试了好几种设置,感觉影视剧还是Whisperx的效果更好,另外就是事先进行人声分离有时候会提高准确度,有时候又会降低(因为Whisper的训练材料里大量的影视剧并没有经过人声分离),但总体而言是正收益。总的来说目前Whisperx仍然是最优解,但可以另外用whisper-timestamped跑一个备用,在whisperx拉跨的时候切换过去,反正mpv快捷键切换字幕也方便。
Whisperx好像是只支持nv,不过目前只要想跑AI的都会搞块N卡,所以也不算什么了。

另外如果只是audiobook之类一直有人说话的内容,无论是Whisperx还是whisper-timestamped,时间轴都已经非常准确。如果手头有准确文本(比如epub)可以用srt-sync进行文本校正,或者写脚本用chatgpt进行文本校正(后者更完美)都可以做到非常准确,已经没剪映什么事了。