WordReference 兰登书屋韦氏词典数据处理

学习词典和足本词典。

9 个赞

有 .py 嗎?方便以後想抓發音的朋友。

image

2 个赞

改写 get_dc() 函数就可以抓发音。爬 WordReference 的原理:先抓一个网页,再抓页内特定超链接指向的网页,递归,直到抓完。具体实现看代码。

6 个赞

試著試試,卻在 mdxbuilder 出現此問題,不知你們都是如何查錯的

Begining loading source file…
Keyword is longer than 1024 at position: 316680 of the source file
Failed to load source file, process cancelled

看这里,哈哈

1 个赞

謝謝你,vim不用用
Notepad++ 應該是打不開,229mb,emeditor 有得看嗎?

1 个赞

不是把詞頭弄出來再配個 css,這樣不行嗎?

<h3 class="headerWord">

这个是词头,emeditor可以打开,要把文本再处理一下,像这种网站抓取的数据,应该需要同时给mdx匹配css文档和js文件

哈!哈!是的,但碰到的不是這個問題

2 个赞

Seems to be missing…(?)

话说这个足本就是 纸质版第二版 的数据对吗?

持续关注中……

很大一部分改动要推倒重来了。

extract36-1.py (5.6 KB)

extract36-3.py (5.7 KB)

extract37.py (5.7 KB)

2 个赞

extract38-1.py (5.9 KB)

extract39.py (6.1 KB)

处理完,直接制作mdx可否?

extract40-6.py (6.8 KB)