韦氏官网数据转制MDX 2020-02-14 [样式更新]

韦氏官网数据重新爬取,单词变形词组重新提取,完整保留官方数据结构,样式保持一致,跳转问题基本修复,目标是完整离线韦氏官网数据。

已完工 mw_core.mdx,总共357343条数据。
已完工 mw_legal.mdx,总共10251条数据。
已完工 mw_medical.mdx,总共57920条数据。
已完工 mw_thes.mdx,总共52579条数据。

四本mdx词典的本体包括紧凑版css都已完工,后续将上传发音文件 mw_core.mdd,正在爬取,有缺漏提取的数据,直接跟贴我会看到,尽量补全出个完美版。

数据来源:
主站(mw_core.mdx + mw_core.mdd):https://www.merriam-webster.com/
同义词(mw_thes.mdx):https://www.merriam-webster.com/browse/thesaurus/
医学(mw_medical.mdx):https://www.merriam-webster.com/medical
法律(mw_legal.mdx):https://www.merriam-webster.com/legal

医学法律词典除本词典数据外,还从主站数据里提取了对应的词条,所以单独使用数据也不会缺失。

原本打算制作四合一词典,也就是主站数据+医学法律同义词合并成同一本词典,但是发现主站数据存在大量一对多,多对多的情况,合并数据很不现实,比如在主站数据里sink,sinks是同一个词条,但在同义词词典里这是两个词条,而且数据也不一样,如果词条变形多的情况更复杂,没法简单处理。

词典整体样式将和官网保持一致,字体段落会更紧凑一些,没改到的地方,贴出来我会修。
压缩包内单独提供HTML小样一份,内有多个词条,供修改样式使用。

词典MDX使用非官方工具生成,所以可能有兼容性问题,不过已通过Goldendict和Mdict PC&Android的测试,深蓝欧路还请各位帮忙。

此贴长期更新,欢迎提错。

[2020-02-14更新]

  • 修正移动端显示效果,对齐边距 ,防止内容超出屏幕显示范围。
  • 分流下载:mw.css (32.6 KB)

[2020-02-02更新]

  • 修复类似access这样,序号会重叠的问题。下载地址:Merriam-Webster
  • 分流下载:mw.css (32.6 KB)

[2020-02-01更新]

  • 统一词条跳转链接的字体大小,16px -> 14px。
  • 分流下载:mw.css (32.2 KB)

[2020-01-31更新]

  • 紧凑版css完工,统一字体大小为14px,按层级2px递增。
  • 分流下载:mw.css (31.9 KB)

[2020-01-30更新]

  • 更新为紧凑版css,统一行间距,所有行间距按层级2px递增。
  • 论坛上传文件大小有限制,分流下载:mw_legal.mdx (4.6 MB) mw_medical.mdx (10.5 MB) mw.css (29.4 KB)

[2020-01-28更新]

  • 修复类似-ab词头的跳转,@@@LINK会有问题,放弃使用。
  • 兼容Mdict 2.0,生成的词典序和Mdxbuilder 3.0保持一致,搜索体验无差别。
  • 词典重制。

网盘只有onedrive,下载不了的加群互相帮助下。
所有词典可以使用同一份mw.css,最后感谢群里兄弟提供的网盘。

MERRIAM-WEBSTER’S THESAURUS DICTIONARY

MERRIAM-WEBSTER’S LEGAL DICTIONARY

MERRIAM-WEBSTER’S MEDICAL DICTIONARY

27 Likes

优秀!正好不太需要多合一。

你好,我在mdict pc和mdict android 2.1.8版都测试了下,都能查到face这个单词。

能显示就行。

下载很困难啊,sample那个完全没办法下载

1 Like

这个网盘太难下载了。楼主是否方便换个网盘呢?比如蓝奏网盘!

1 Like

手机欧路,很多常用词查不到

能不能举几个例子?如果只是常用词查不到,说明生成的词典格式本身没问题,可能是漏提取了。

mw_core中,确实是很多搜不到,a字母开头的很多都没有,具体来说是从ab,ac一直到am开头的都没有。
mw_thes中,所有a字母开头的单词都没有。
mw_legal中,所有d.e,u字母开头的单词都没有。
mw_medical中,所有s.v字母开头的单词有没有。

注:用的是MDict for PC 2.0.10

测试了下ab,ac,ad,ae,af,ag,am,发现goldendict能搜索能加载出来,欧路mdict确实搜索不到,但浏览全部词头的话,是能看到的,可能排序算法没适配的原因,导致后两者搜索不出来,因为goldendict用的自有搜索引擎,不care在mdx里内置的排序算法,而欧路应该没有内嵌引擎,需要依赖mdx本体里的排序算法,我再仔细看看,会重新适配发一版,感谢反馈。

应该不是排序的原因,据我的经验,是没有使用官方打包工具造成的。

打包工具是手写的,官方的不支持mac和linux,具体原因,明天有时间再看看。

到现在都没有下载下来,楼主这是不在国内么?这个喵云极速刚开始100k,接下来很快就成了3k,然后会出现断掉,还不能续传。还不如onedrive呢,楼主是否方便百度云或者蓝奏云?谢谢!

解决了,需要忽略大小写排序,欧路现在可以用了,晚点所有词典我重发一版。感谢反馈。

感谢反馈,其实有Bias和bias两个词头,之前忽略大小写排序,后者跳转到前者了,现在欧路和mdict都没问题了,等我更新。

是不是有些词还有他们家高阶学习词典的内容啊?

大佬鼠年吉祥!请问可以采集一下“From the Editors”部分吗?

不知道是哪部份,最好发个链接我看看。

真好,楼主辛苦