Whisper+剪映制作精听材料

我觉得要做这事你不如对WhisperX来做,WhisperX也能输出word级别的时间轴。区别在于Whisper的时间轴不准,所以其word级别的也不准。而且这个事情靠Whisper本身可能无法解决,因为我最近发现大量的官方字幕的时间轴就是这么不准,而众所周知Whisper的训练材料大量来自官方字幕。

同样地,Whisper字幕中经常会发生的缺少句号、句首没有大写的原因就在于Whisper的训练材料里很多来自YouTube字幕(多半是up主主动上传的),而这些字幕多半是up主在YouTube自动识别的字幕基础上修订的,但是修订过程中不少up主没有做得那么细致。同样地,还有很多字幕的断句有问题(句号在一行字幕中间)。所以基本上Whisper的各种问题大多来自质量上有欠缺的训练材料,以至于这些问题根深蒂固,可能根本无法解决。