请大神抓取最新版的Wiktionary

隔壁的 Wiktionary English 2019 离线版距今已有2年,词条有54万,如今的Wiktionary有94万词条,非常值得再次抓取,有现成的脚本,但有一些小错误,需要懂Python的大神修改一下才能成功抓取。Wiktionary English 2019 离线版-最终版-再次更新美音图标+换行... - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!

2 Likes

有购买可见,看不了是怎么做的。官方有离线数据下载的,仅供参考。

https://dumps.wikimedia.org/enwiktionary/latest/

帖子截图:


B大原贴地址https://www.pdawiki.com/forum/thread-18397-1-1.html
B大的readme:1. 安装python 2.7.6
2. windows下要再安装python加载器,否则弹出一堆窗口很烦人
https://bitbucket.org/vinay.sajip/pylauncher/downloads/launcher.msi
3. 安装requests
https://pypi.python.org/pypi/requests/
4. 将wordlist.txt和wkt_downloader.py脚本文件放在同一目录下
5. 配置下载进程数及每块的单词数,目前默认设为25个进程,每块8000个单词
如果要修改,找到wkt_downloader.py的如下两行:
MAX_PROCESS = 25
STEP = 8000
进程个数的上限视个人PC的配置和网速而定,PC性能好可以开更多
6. 打开命令行,运行py wkt_downloader.py(确保硬盘剩余容量3.5G以上)
参数说明:
f 可选 仅排版,所有网页数据已经下载后可用
-l 可选 图片离线化,若不设此参数则生成在线图片版mdx
-q 可选 压缩png图片,需要将pngquant.exe放在此脚本同一目录下
-v 可选 svg图片替换为png图片(需要事先将此脚本生成的WKT/v目录下的所有svg图片转成同名的png图片,推荐用Apache batik)
p 可选 下载增量更新
[file] 设置参数p时必选,指定用于增量更新的词汇一览表的文件名,格式参考wordlist.txt

B大的脚本wkt_downloader.7z (15.1 KB)
B大分享的文件链接:http://pan.baidu.com/s/1nvGrSvv
hham
gzq830510在重新抓取时未分享更新的脚本。

2 Likes

16年的脚本,还是 python2。

我不知道为什么要这样抓取,推荐处理官方提供的离线数据。Index of /enwiktionary/latest/

抓取的词典非常精美,带图片,这个脚本自动抓取并自动生成词典,完全自动化,比离线数据省劲多了,只是脚本有一些小bug,我不懂Python,一直无法成功生成。gzq830510就是用了这个脚本,并且修改了一些bug,做了2019版的,但他不愿意分享修改后的脚本。

在查新词新义方面非常给力,town hall 能够查到“全体员工大会”的词典不多:

town hall第3个意思“(非政治)会议”,柯林斯词典和柯林斯高阶有收,而且打了个标签“Mainly US”。但最新的AHD,正宗韦氏,韦氏新世界等美语词典,都没收这个义项。奇怪。

好作者啊哈哈哈

1 Like

我也很好奇为什么美国词典不收这个词义。
感谢告知这个网站,我在另一个网站(https://osdn.net/projects/lailaps/releases/)
下载到已经解析好并制作完成的EPWING格式的词典,但排版效果差远了

可能"town hall"的那个用法,编辑觉得很不“规范”,所以不收(都是“描述型”词典,就别装了好嘛)。

用维基官方给的数据,得到JSON,转为XML,做成MDX,配上CSS,应该是可行的。我前面发的Extracted Data,没提取词源和图片,得(修改代码)重新提取。。略坑。

或者干脆学bt4baidu,再爬一遍Wiktionary。

1 Like

我觉得重新爬一遍比使用转储的数据要好很多,看来要学一下Python了。

我并不这么觉得。。。各有所爱吧。

这个是该出一版新的了,旧版已经很久了。

Can you share the source of the information that “Today’s Wiktionary has 940,000 entries”? From here, it shows only 617,138 entries.
image

两年时间词条怎么会增加40万呢,应该是统计方法不一样吧

1 Like

OP probably meant ‘940,000 distinct words’ instead of ‘940,000 entries’ as in headwords.

I wonder from which source OP took the number 940,000.

https://en.wiktionary.org/wiki/Special:Statistics
Scroll down to ‘English’ or sort by ‘entries’

1 Like

https://kaikki.org/dictionary/English/index.html

2 Likes