本词典已经有mdx版了,但是似乎存在缺词和错误问题没有完全修正
我重新用gemini和quark进行了ocr,然后开发了新工具进行了幻觉检查,这次幻觉率应该比较低了。
新世纪日汉双解大辞典_gemini.zip (17.0 MB)
夸克识别版本:
新世纪日汉双解大辞典 部分1 あ-こ.docx (14.1 MB)
新世纪日汉双解大辞典 部分2 さ-の.docx (13.7 MB)
新世纪日汉双解大辞典 部分3 は-ん 附录.docx (16.4 MB)
夸克转文本后的版本:
新世纪日汉双解大辞典_quark.zip (18.3 MB)
4 个赞
这个项目现在是什么状态啊,我对古汉语兴趣不大,不过可以帮忙ocr和提供对比工具。
应该只是很多人想尝试,但没有进展,如果不麻烦,大佬可以出一个版本
《故訓匯纂》文本化已经有人在做: 图片词典故訓匯纂文本化过程记录 - #22,来自 W2K 但以目前的条件——图像底本不清晰,体量大,生僻难字多,版式也异常——神仙也干不快干不好,最重要的功夫是文字一一对比校改。
2 个赞
噢,感谢提供信息,但是3月份之后就没动静了,不知道结果啥样了
书本身也是古文字专家才真的用得上的,一般人像说文解字、集韵、康熙字典、辞源、汉语大字典、汉语大词典等还满足不了需求?即使偶尔查一下,图像PDF也很方便,索求文本mdx,我看多是叶公好龙,松鼠症发作,真有了文本化词典也是束之高阁居多。
楼主:你新ocr后,有没有转成mdx啊,我看附件是txt格式。
像《故訓匯纂》里的“麝”字条,18条例证,实际基本是一个意思,不研究训诂和古文字,一般人查它是浪费精力和时间。
这个不是直接转那么简单的,ocr只是第一步,需要进行数据清洗,词头匹配,然后原来的文本要转成可还原为html的文本形式然后才能对比校对,还需要做大量工作。