① 装修 > ② 改版 > ③ 转制 > ④ 自制
① 装修阶段:
- 在菜鸟联盟学习 css (选择器) 和 html 的相关知识,为改版打基础。
- 看词库制作交流区的 css 教程,不懂的 Google 之。
- 仿写。比如:鼠标经过时高亮当行中的关键词 (Collins Cobuild) 、仅一条数据时伪元素不计数 (新世纪英汉大词典)、利用 font-size=0 隐藏文本 (文馨英汉词典)。如今 mmmc 小姐姐的作品是很好的材料。
② 改版阶段:
- 简单替换、词条排序、合并词头 (OCD)。
- 小词典合并 (Mdict Editor Tool)。
- 拆包典型词典,学习图片缩放 (WBD)、双解切换、例句收展、词性跳转 (L5++)、内容收展 (Cambridge4)、繁简切换 (OALD8)、导航 (mw2018)、在线发音 (Collins) 等。
- 学习词组提取。补充 read、write、BeautifulSoup、for、if 等基础知识 (MBD)。
- 批量替换文本(韦氏高阶英汉双解词典)。
- 小坑: 跳转链接中的 ? 要替换为 %3f ,半角双引号替换为%22,用 @@@ LINK 时词头的全角引号要替换为半角;以 - 开头的词头无法用 @@@ LINK 跳转…
③ 转制阶段:
- 转换格式 (pyglossary)
- epub转制(递归读取文件、根据字典批量替换文本以修复跳转)
④ 自制阶段:
- 切图:学切词,用 vim 和 python 删除特定行以实现高亮 (vim 会有多余空行,python 没有)。学习粗略定位版词典的制作(VimVim 之 MdxSourceBuilder)
- 爬虫:先学 hua 的 python 词库制作基础课程,上菜鸟联盟解惑,谷歌案例。
词典 | 知识点 | |
---|---|---|
① | Green’s Dictionary of Slang | 两个 for 循环获取索引 |
② | Oxford Living Dictionaries 增补 | BeautifulSoup 之 append, insert, new tag 等 |
③ | Dictionary | 获取页码构造 url ;异常处理 |
④ | 林语堂当代汉英 | SSL 认证及频繁报错问题;中文乱码、编码;Request URL 不完整;html 解析器的选择(请求到的页面结构与 chrome 中显示的不同、网页错误导致词条最终非标准三行);无标签的词组提取 (正则、split) |
⑤ | The Free Dictionary | 获取动态索引(借鉴 loner 利用临时文件中转爬取 WRC 的代码;修改为循环读取最后一行);获取js翻页内容;代理池(了解反爬与反反爬);字符串去重排序;词头中的转义字符处理 |
⑥ | Merriam-Webster | 异步请求 (json) |
⑦ | Macmillan | crawlspider(没学完,因为后来发现不需要逐层提取链接);利用 request 获取重定向网址的正确链接以修复内部跳转; 嫁接和反查尝试 |
⑧ | Thesaurus | json to html;多重排序 |
⑨ | 中華語文大辭典 | json to html;Excel to json;Excel 之 VBA 替换不可见的换行符 |
加了下划线的都求助过,非常感谢各位耐心解答。又双叒叕 get 新技能~