《拉汉科技词典》文字版

wynick27 · 2026 年2 月 2 日 00:52

之前的帖子在这里，虽然讨论了很多文本化方案，但过了两年都没制作完成。

我开发了校对工具后就准备用这个试试，之前已经用夸克识别了一遍，然后又用gemini识别了文本，配合paddleocr vl1.5提供位置信息，周末用了两天时间以夸克为主文本进行了粗校，修复了大部分错字问题，不过如果两个ocr版本错的一样就不容易发现。

当前版本是词组放在主词条后面，添加了词组跳转链接，然后因为格式很简单，没有加任何样式。

效果如图：

如果有人想改样式直接下载python脚本然后修改就行
生成mdx源文件的脚本：
parse_files.py (3.4 KB)

当前版本文本：
拉汉科技词典_quark.txt (4.5 MB)

wynick27 · 2026 年2 月 2 日 00:58

原文用了很多生僻字，已经尽量用unicode替换了，有的生僻字我在unicode没找到，暂时没处理：

骨户

钅毳

其他生僻字，有的是不在BMP的，如果系统字体不够全显示就会有问题：

𰲳

蘗

𱉛

𧊥

𰰶

𫌀

𰡉

䴙䴘

荵

𮬝𮭥

𫇴

𫇺

有些忘了截图的：
𰪛𧍒𱉛𮭥𫁡𫏋𫛚

此处应该是原文错误：

onits → ontis