《拉汉科技词典》文字版

之前的帖子在这里,虽然讨论了很多文本化方案,但过了两年都没制作完成。

我开发了校对工具后就准备用这个试试,之前已经用夸克识别了一遍,然后又用gemini识别了文本,配合paddleocr vl1.5提供位置信息,周末用了两天时间以夸克为主文本进行了粗校,修复了大部分错字问题,不过如果两个ocr版本错的一样就不容易发现。

当前版本是词组放在主词条后面,添加了词组跳转链接,然后因为格式很简单,没有加任何样式。

效果如图:

mdx:
拉汉科技词典.mdx (2.4 MB)

如果有人想改样式直接下载python脚本然后修改就行
生成mdx源文件的脚本:
parse_files.py (3.4 KB)

当前版本文本:
拉汉科技词典_quark.txt (4.5 MB)

其他对比文本:
ocr_results.zip (17.0 MB)
拉汉科技词典_gemini.txt (4.5 MB)

3 个赞

原文用了很多生僻字,已经尽量用unicode替换了,有的生僻字我在unicode没找到,暂时没处理:


骨户
image
钅毳

其他生僻字,有的是不在BMP的,如果系统字体不够全显示就会有问题:
image
𰲳



image
𱉛
image
𧊥


𰰶
image
𫌀
image
image

image
𰡉
image

image
䴙䴘
image

image


𮬝𮭥
image
𫇴
image
𫇺

有些忘了截图的:
𰪛𧍒𱉛𮭥𫁡𫏋𫛚

此处应该是原文错误:


onits → ontis

4 个赞