开源——以制作「王力古汉语字典」为例

开源?

到什么层面?从 mdx 到代码,到思路,共乐乐。

mdx 成品下载

原材料

pdf

【高清】王力古汉语字典 PDF 主体+缺页包。

txt

【9月18日更新】王力古汉语字典文字版 大量处理请看原帖。

校正参考

处理逻辑

准备

  • 创建虚拟 py 环境:不冲突系统依赖、用完即删,python3 -m venv pyvenv
  • 安装 mdx 解包压包工具:./pyvenv/bin/pip install mdict-utils

txt 结构分析

例一、例证部分:“的”[di4][五]

≮五≯〔的皪〕〔的歷〕〔的礰〕叠韻聯緜字。光亮。
	<span class="shuming">文選</span>
		<span class="zhuanming">漢</span>
			<span class="zhuanming">司馬相如</span>
				<span class="shuming">上林賦</span>
					:“皓齒粲爛,宜笑的皪。”
		<span class="zhuanming">李善</span>
			<span class="shuming">注</span>
				:“的皪,鮮白貌。言笑則見其皓齒鮮白。”
	<span class="shuming">初學記</span>
		三○
			<span class="zhuanming">唐</span>
				<span class="zhuanming">虞世南</span>
					<span class="shuming">詠螢</span>
						詩:“的歷流光小,飄飄弱翅輕。”
	<span class="shuming">後漢書</span>
		<span class="shuming">張衡傳</span>
			<span class="shuming">思玄賦</span>
				:“離朱脣而微笑兮,顔的礰(
					<span class="shuming">文選</span>
						<span class="zhuanming">李善</span>
							本作“礫”,五臣本作“皪”。)以遺光。”
例证为两级(三种),数量为三。

含引号的要判断引号前是否有“注、梳”等字样:
1. 有则不单列为例证
    1. 自身在括号里的,还要匹配前一个字同色才能放到下一级
    2. 自身无括号的,可以换行tab放到下一级子释义。
2. 无则为一个整体例句。
3. 可调整为先显示例句,引用书名、人名放后。
1 个赞

由指鹿为马可知,母鹿等于马,
那么马路即是鹿路,
那么马路又称公路,
则鹿路等于公路,
则母鹿等于公的,
证明完毕。

指鹿为马是荒谬、可笑、错误的,以此得到的推论也是如此。