隔壁的 Wiktionary English 2019 离线版距今已有2年,词条有54万,如今的Wiktionary有94万词条,非常值得再次抓取,有现成的脚本,但有一些小错误,需要懂Python的大神修改一下才能成功抓取。Wiktionary English 2019 离线版-最终版-再次更新美音图标+换行... - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!
有购买可见,看不了是怎么做的。官方有离线数据下载的,仅供参考。
帖子截图:
B大原贴地址【2016/09】Wiktionary 2016豪华版 - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!
B大的readme:1. 安装python 2.7.6
2. windows下要再安装python加载器,否则弹出一堆窗口很烦人
https://bitbucket.org/vinay.sajip/pylauncher/downloads/launcher.msi
3. 安装requests
requests · PyPI
4. 将wordlist.txt和wkt_downloader.py脚本文件放在同一目录下
5. 配置下载进程数及每块的单词数,目前默认设为25个进程,每块8000个单词
如果要修改,找到wkt_downloader.py的如下两行:
MAX_PROCESS = 25
STEP = 8000
进程个数的上限视个人PC的配置和网速而定,PC性能好可以开更多
6. 打开命令行,运行py wkt_downloader.py(确保硬盘剩余容量3.5G以上)
参数说明:
f 可选 仅排版,所有网页数据已经下载后可用
-l 可选 图片离线化,若不设此参数则生成在线图片版mdx
-q 可选 压缩png图片,需要将pngquant.exe放在此脚本同一目录下
-v 可选 svg图片替换为png图片(需要事先将此脚本生成的WKT/v目录下的所有svg图片转成同名的png图片,推荐用Apache batik)
p 可选 下载增量更新
[file] 设置参数p时必选,指定用于增量更新的词汇一览表的文件名,格式参考wordlist.txt
B大的脚本wkt_downloader.7z (15.1 KB)
B大分享的文件链接:百度网盘 请输入提取码
hham
gzq830510在重新抓取时未分享更新的脚本。
16年的脚本,还是 python2。
我不知道为什么要这样抓取,推荐处理官方提供的离线数据。Index of /enwiktionary/latest/
抓取的词典非常精美,带图片,这个脚本自动抓取并自动生成词典,完全自动化,比离线数据省劲多了,只是脚本有一些小bug,我不懂Python,一直无法成功生成。gzq830510就是用了这个脚本,并且修改了一些bug,做了2019版的,但他不愿意分享修改后的脚本。
在查新词新义方面非常给力,town hall 能够查到“全体员工大会”的词典不多:
town hall第3个意思“(非政治)会议”,柯林斯词典和柯林斯高阶有收,而且打了个标签“Mainly US”。但最新的AHD,正宗韦氏,韦氏新世界等美语词典,都没收这个义项。奇怪。
好作者啊哈哈哈
我也很好奇为什么美国词典不收这个词义。
感谢告知这个网站,我在另一个网站(https://osdn.net/projects/lailaps/releases/)
下载到已经解析好并制作完成的EPWING格式的词典,但排版效果差远了
可能"town hall"的那个用法,编辑觉得很不“规范”,所以不收(都是“描述型”词典,就别装了好嘛)。
用维基官方给的数据,得到JSON,转为XML,做成MDX,配上CSS,应该是可行的。我前面发的Extracted Data,没提取词源和图片,得(修改代码)重新提取。。略坑。
或者干脆学bt4baidu,再爬一遍Wiktionary。
我觉得重新爬一遍比使用转储的数据要好很多,看来要学一下Python了。
我并不这么觉得。。。各有所爱吧。
这个是该出一版新的了,旧版已经很久了。
Can you share the source of the information that “Today’s Wiktionary has 940,000 entries”? From here, it shows only 617,138 entries.
两年时间词条怎么会增加40万呢,应该是统计方法不一样吧
OP probably meant ‘940,000 distinct words’ instead of ‘940,000 entries’ as in headwords.
I wonder from which source OP took the number 940,000.
https://en.wiktionary.org/wiki/Special:Statistics
Scroll down to ‘English’ or sort by ‘entries’