开源?
到什么层面?从 mdx 到代码,到思路,共乐乐。
mdx 成品下载
原材料
【高清】王力古汉语字典 PDF 主体+缺页包。
txt
【9月18日更新】王力古汉语字典文字版 大量处理请看原帖。
校正参考
- 王力古汉语字典更新(2021年8月26日已核对完) 大量修正请看原帖。
- '王力古汉语字典' 的搜索结果 - FreeMdict Forum
- 王力古汉语字典文字版 - 勘误
- 【8.19更新】王力古汉语字典(整页版)图片优化 - #4,来自 hahaya
- 去斑一定要反复调试,尤其看看i上面的小点,氵和丶这样地方会不会丢
- 有的是同一個字但頁數不同
- “王力”的搜索结果 – PDAWIKI 归档 – PDAWIKI 存档 – PDAWIKI历史贴文 – PDAWIKI ARCHIVE
- 王力古汉语字典 (豆瓣)
处理逻辑
准备
- 创建虚拟 py 环境:不冲突系统依赖、用完即删,
python3 -m venv pyvenv
- 安装 mdx 解包压包工具:
./pyvenv/bin/pip install mdict-utils
-
- unicode 参考:Unicode Standard
txt 结构分析
例一、例证部分:“的”[di4][五]
≮五≯〔的皪〕〔的歷〕〔的礰〕叠韻聯緜字。光亮。
<span class="shuming">文選</span>
<span class="zhuanming">漢</span>
<span class="zhuanming">司馬相如</span>
<span class="shuming">上林賦</span>
:“皓齒粲爛,宜笑的皪。”
<span class="zhuanming">李善</span>
<span class="shuming">注</span>
:“的皪,鮮白貌。言笑則見其皓齒鮮白。”
<span class="shuming">初學記</span>
三○
<span class="zhuanming">唐</span>
<span class="zhuanming">虞世南</span>
<span class="shuming">詠螢</span>
詩:“的歷流光小,飄飄弱翅輕。”
<span class="shuming">後漢書</span>
<span class="shuming">張衡傳</span>
<span class="shuming">思玄賦</span>
:“離朱脣而微笑兮,顔的礰(
<span class="shuming">文選</span>
<span class="zhuanming">李善</span>
本作“礫”,五臣本作“皪”。)以遺光。”
例证为两级(三种),数量为三。
含引号的要判断引号前是否有“注、梳”等字样:
1. 有则不单列为例证
1. 自身在括号里的,还要匹配前一个字同色才能放到下一级
2. 自身无括号的,可以换行tab放到下一级子释义。
2. 无则为一个整体例句。
3. 可调整为先显示例句,引用书名、人名放后。