学习词典和足本词典。
有 .py 嗎?方便以後想抓發音的朋友。
2 Likes
改写 get_dc() 函数就可以抓发音。爬 WordReference 的原理:先抓一个网页,再抓页内特定超链接指向的网页,递归,直到抓完。具体实现看代码。
6 Likes
試著試試,卻在 mdxbuilder 出現此問題,不知你們都是如何查錯的
Begining loading source file…
Keyword is longer than 1024 at position: 316680 of the source file
Failed to load source file, process cancelled
看这里,哈哈
1 Like
謝謝你,vim不用用
Notepad++ 應該是打不開,229mb,emeditor 有得看嗎?
1 Like
不是把詞頭弄出來再配個 css,這樣不行嗎?
<h3 class="headerWord">
这个是词头,emeditor可以打开,要把文本再处理一下,像这种网站抓取的数据,应该需要同时给mdx匹配css文档和js文件
哈!哈!是的,但碰到的不是這個問題
2 Likes
Seems to be missing…(?)
话说这个足本就是 纸质版第二版 的数据对吗?
持续关注中……
很大一部分改动要推倒重来了。
extract36-1.py (5.6 KB)
extract36-3.py (5.7 KB)
extract37.py (5.7 KB)
2 Likes
extract38-1.py (5.9 KB)
extract39.py (6.1 KB)
处理完,直接制作mdx可否?
extract40-6.py (6.8 KB)