嚓,我又找到了一个非常牛逼的audiobook的对齐项目
严格地说这是一大堆TTS、STT类工具的集合(包括Whisper等),对齐只是其中一个功能,这里只说对齐。
我找了一本7小时的audiobook,基本上都没错,而且占用内存也不高,也不用GPU,速度大概在30~60x。
不过影视剧就不太行,估计还是中间的无人声部分处理得不好。
嚓,我又找到了一个非常牛逼的audiobook的对齐项目
严格地说这是一大堆TTS、STT类工具的集合(包括Whisper等),对齐只是其中一个功能,这里只说对齐。
我找了一本7小时的audiobook,基本上都没错,而且占用内存也不高,也不用GPU,速度大概在30~60x。
不过影视剧就不太行,估计还是中间的无人声部分处理得不好。