WordReference 兰登书屋韦氏词典数据处理

lurker · 2021 年5 月 10 日 12:35

学习词典和足本词典。

nlmha · 2021 年5 月 10 日 12:54

有 .py 嗎？方便以後想抓發音的朋友。

lurker · 2021 年5 月 10 日 13:06

改写 get_dc() 函数就可以抓发音。爬 WordReference 的原理：先抓一个网页，再抓页内特定超链接指向的网页，递归，直到抓完。具体实现看代码。

fruition · 2021 年5 月 10 日 15:18

試著試試，卻在 mdxbuilder 出現此問題，不知你們都是如何查錯的

Begining loading source file…
Keyword is longer than 1024 at position: 316680 of the source file
Failed to load source file, process cancelled

linbai · 2021 年5 月 10 日 15:54

看这里，哈哈

fruition · 2021 年5 月 10 日 15:56

謝謝你，vim不用用
Notepad++ 應該是打不開，229mb，emeditor 有得看嗎？

fruition · 2021 年5 月 10 日 16:00

不是把詞頭弄出來再配個 css，這樣不行嗎？

free · 2021 年5 月 16 日 04:50

<h3 class="headerWord">

这个是词头，emeditor可以打开，要把文本再处理一下，像这种网站抓取的数据，应该需要同时给mdx匹配css文档和js文件

fruition · 2021 年5 月 16 日 05:03

哈！哈！是的，但碰到的不是這個問題

nlmha · 2021 年5 月 25 日 09:46

Seems to be missing…(?)

nlmha · 2021 年5 月 25 日 12:05

话说这个足本就是纸质版第二版的数据对吗？

nihaocool · 2021 年7 月 13 日 06:50

持续关注中……

lurker · 2021 年7 月 27 日 15:08

很大一部分改动要推倒重来了。

lurker · 2021 年7 月 30 日 19:28

lurker · 2021 年8 月 5 日 15:21

lurker · 2021 年8 月 6 日 16:22

lurker · 2021 年8 月 12 日 14:23

lurker · 2021 年8 月 13 日 15:07

sculiuchang · 2021 年8 月 13 日 22:19

处理完，直接制作mdx可否？

lurker · 2021 年8 月 14 日 16:35