【求助】牛津高阶双解7版光盘 音频提取

很多年前我做过一套英音的语音库,当时对比了好多词典的发音:

我这里有一套2015年做的英音的语音库,当时是嫌我用的两个背单词的网站(wordmemo和X贝网)没有英音,才下决心做的。他们的老板都已经采用这一套英音了 [注:X贝网后来购买了版权更换成了纯牛津的发音。wordmemo已倒闭。]

具体使用的词典库有:

  1. 朗当代第五版(我认为朗文的发音是最地道的,同时也很清晰。最新的第六版没有光盘了,只有一个网站,我去抓了一些mp3发现完全和第五版一样)。
  2. 朗文发音词典(非常霸道,揉选了朗文第345版+学习词典+各种词典+数万独占的录音,朗文发音看家之作。和上面朗文当代有一些交集)。
  3. 朗文当代第四版2005增补(其中朗文当代第三和第四版都出过增补版,就是所谓的四代半。只有这个版本网上广泛流传,电驴上可以下载。MDICT上一版的sound.mdd的英音基本上基于此语音库。不过因为年代原因,绝大多数发音和第五版相同,但是音质低不少,我全拿新版做替换,稍后解释)。
  4. 牛津高阶第七版(第七版的录音虽然有男有女,但是我觉得其实比第八版更好)。
  5. 牛津高阶第八版(第八版的录音牛津完全重新录过,不过我觉得那个男声实在欠点儿味道,软趴趴的没有睡醒的样子)。 [注:o8发音=o9=o10=ODE online=Lexico=OED online]

至于网上流传的金山词霸(提取自爱词霸网页)发音,我听了一下,很多是国人朗读的,并且有很多杂音、短音,质量实在是不咋地,我果断弃用。虽然以上入选的语音库都一流级别的,但是毕竟一个单词只需要一个读音,所以我筛选了一遍,做成一一对应的语音库(当然有少量重复的,实在懒得删了)。根据我个人的主观评价,用质量更高的发音库代替稍逊色的。

优先级如下(前面覆盖后面的,前面没有发音的再fallback到后面去):1.朗文五 > 2.朗文发音 > 4.牛津七 > 5.牛津八 > 3.朗文四2005

当然我后来发现柯林斯的发音也不错。
今天英音要排个名的话我大概会 朗文六 > 朗文发音 > 牛津七 > 柯林斯发音 > ODE Online > 剑桥> 朗文四2005
当然美音的话韦氏是当之无愧。

综上,即使在今天,牛津7的发音也是极具价值的。唯一瑕疵的是因为那个年代光盘容量有限,英英版光盘提取出来的MP3文件码率很低。不过我在硬盘中翻到了一个英汉版O7光盘镜像,容量大上不少,可以想象,音频文件的码率可能也有提升。只是这个光盘不是常规的IDM,我实在是不会破解,现在发出来,大家把玩一下吧。
链接:https://pan.baidu.com/s/1GhTFJKjKfCdB5kmi48YS3w
提取码:2lf7

另外求柯林斯发音词典的MP3,应该得从cobuild resource pack光盘中提取。

10 个赞

楼主牛!确实早期光盘制作的音频音质还赶不上现行中学教材所录制单词的音质。不过中学教材的词汇量有限,静候大侠出手,期盼能早日看到提取的原音。

1 个赞

楼主有否安装过这个英汉版本,试听过呢?

我能提取,给你一个听听 bowerbird。如果确实质量好一点,我来提取。不过看起来 superfan89 是做完了的,你可以直接去找找他的 mdx 成品?

提取文件:https://downloads.freemdict.com/dict_iso/牛津高階精靈光盤/o7_audio_origin_mp3.7z

下面附上技术细节,思路来自 @superfan89 from PDAWIKI : 牛津高阶第七版(英英,内嵌语音、图片,添加Culture Guide,Word Finder;添加双解版) - 第7页 - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz! 第七页,在此感谢。

数据存储在 sqlite3 数据库,采用 twofish 加密,密钥为 thechiperkeyisnothing 请注意 twofish 加解密是以 16 bytes 为一个 block,技术讲解完毕。

不想用的百度网盘的同学:Index of /dict_iso/牛津高階精靈光盤/

6 个赞

版主威武。superfan的版本已经转成低质量的spx了,所以重新提取mp3还是有意义的。

1 个赞

这隔壁有人做过,不一样吗?
[应求]牛津高阶7词典语音库

1 个赞

hua大技术真是强!我刚对比试听了一下,音质有非常明显的提升。

三个文件从左到右分别是英英版原始MP3,superfan版转制SPX,hua大提取的英汉版MP3。可以看到无论是码率,还是采样率都是最佳的,从波形来看也是细节最多最干净的。


那个语音库正是我提供的元发音文件,那些发音就是从英英中提取的MP3,码率较低。

你想要我怎样给你?
所有元数据都解密给你还是只给你音频和文件名?不知道你说的 语音库 会怎么分别 read/read 以及 lead 这种发音?

telegram发给我吧,我站内信私信你

除了百度网盘的介质都可以,看你方便。关键是你要哪些数据。

1 个赞

传奶牛吧? :heart_eyes:
ps:最好不要改动文件名,这样可以把superfan等人的版本替换成mp3高清发音版本。

2 个赞

You have got one transfer,Click link: 文件下载-奶牛快传 Download |CowTransfer or use code:126499 to receive your file on cowtransfer.com

password: freemdict

number of files: 73864

Thanks to superfan89 again.
失误失误,感谢 @mdictfan 指出,下面是漏掉的 12 个文件。

sound_other.7z (201.3 KB)

已知问题:有大约一千个 x 开头的文件名的单词,文件名的第一个 x 是多余的,我检查解密过后的文本,确实多了一个 x ,我方法在上一个回复中说了,如果有同学找到我哪儿做错了欢迎指出,我暂时认为原始数据这儿有点问题。

5 个赞

感谢版主!跟superfan的对比了一下,基本一致,有少数命名有区别,譬如:
superfan的是:angina_pectoris_id_2
hua大的是:angina_pectoris_id_angina_2

superfan还有”-“开头的,譬如:-bi_ggn_r1_cod14502

1 个赞

失误失误,感谢指出。 @lgmcw 还有12个

sound_other.7z (201.3 KB)

1 个赞

Will you make its mdx and publish here or not?

我的最爱,好像来晚了点,不过还是很期待一下这几个分别分享出来清晰的:

大神说得对。金山的确实国人读的,发音质量不怎么样。。。

没太明白楼主的这个工作。英语词汇普遍的一词多音,不同词典对同一个单词的义项词性区分各不相同,直接揉在一起问题不少吧。

1 个赞

提取的文件被删了。请问能再发一次吗?麻烦了 :slightly_smiling_face:

请问能发一下 朗文六 的mp3吗?

1 个赞

我想要mp3格式, 这样就可以在手机里一边播一边听。感谢你发的包, 但是我不会提取mp3。 请问你有已经提取出来的mp3吗?

1 个赞