Whisper+剪映制作精听材料

zambast · 2023 年11 月 19 日 11:52

最近开始听audiobook，于是就用上面提到过的syncabook做字幕。其实之前只是用它提供的测试文件试了一下感觉挺好用。这次做自己的audiobook就碰到了一些问题。主要是audiobook一般都有8~10小时长，甚至更长的，这么长的音频文件，就会因为内存不足中途爆掉。这个其实GitHub上作者有提供解决办法。只是解决了这个问题之后，发现越到后面越是不准，到最后一章已经是没法看的地步了。感觉似乎是由于每章开头往往会有停顿之类的，导致越往后偏差越大。必须得按章切割才行。这个其实也是syncabook作者推荐的方式，syncabook本身就提供一个to_xhtml功能能够指定关键词切割文本。另外其实epub解包之后的html本身就是按章分的html，再用老马的TextForever转成txt就行了。只是音频文件就稍微有点麻烦，如果本来下载的就是分好章节的mp3，那自然最好；像是m4b这种本身提供章节的，也好分割；就怕是一整个mp3，手动切割就非常麻烦。好在搜了一下发现有个叫Chapterize-Audiobooks的项目，利用AI技术自动切割（大概就是语音识别，找到Chapter），非常好用，就是跑起来比较慢，似乎是用的CPU。通过章节切割之后再用syncabook，就非常得准，基本可以当精读材料使用。