《拉丁汉文辞典》 ocr文本数据(缺少688,689两页)

之前另一本Joaquim Affonso Gonçalves的拉丁语汉语词典已经由Dickinson College文本化而且有了mdx版。

这本书也是早期拉丁语词典之一,现在估计不太好找了,目前网上流传的扫描版缺少688 689两页(错误的重复了668和669),这本书是台湾出版的,目前很难找到,希望有能力的大佬帮忙补一下缺少的页码。
pdf版本:

拉丁汉文辞典_gemini.txt (5.5 MB)
拉丁汉文辞典_quark.txt (5.1 MB)
拉丁汉文辞典_quark.docx (10.6 MB)

5 Likes

用gemini做了个江沙维(Gonçalves)《辣丁中华合字典》的mdx。其实Dickinson College提供的OCR文本有很多问题,这里都保留原样未做修正。


辣丁中华合字典.mdx (2.1 MB)

1 Like

这个样式不错,你是让gemini直接输出html的还是写程序处理的?

之前的另一个版本可以在这里下载

我是让gemini直接写了一个html,功能是读取csv文件,输出内嵌html样式的txt文本。然后转的mdx

删… 看到了。