《日语语感词典》 OCR文本

应坛友 @mdictnofan 的要求识别了这本词典。由于竖排文本夸克转换txt效果不太好,所以暂时没有进行幻觉检查。

原版是《日本語 語感の辞典》 中村 明 著 岩波書店 2010

日语语感辞典_gemini.txt (4.3 MB)

日语语感辞典_quark.docx (7.3 MB)

谢谢您!我昨天开始读您发的前30页,好像基本上没有识别不准确的地方,太厉害了!

一般是个别生僻字还有符号有些问题,比如那个表示作者的钢笔符号我提示gemini添加,但它经常把这个忽略,还有箭头符号之类的。文字本身问题不大,另外还有个别页面单词顺序也有问题,或者gemini可能编造词条,这种的还得逐页校对。

补充paddleocr识别数据和gemini数据修正

日语语感辞典_paddleocr.zip (5.7 MB)
日语语感辞典_gemini.txt (4.3 MB)
日语语感辞典_paddleocr.txt (4.4 MB)

gemini 我今日用拍照的照片测试一下,发现有一些问题
一. 先用 “日文精确OCR,不更改错误内容”,结果发现有3个错误

X:(毎日、日々が)明け暮れる
O:(毎日、日々)が明け暮れる

X: 始発電車でそれぞれ帰路についた
O: 始発電車でそれぞれ家路についた

X: あけはなす【明け放す・明け放す】
O: あけはなす【開け放す・明け放す】

二. 改用 “日文OCR,不更改错误”,只出现一处错误
X:(毎日、日々が)明け暮れる
O:(毎日、日々)が明け暮れる

看起来会乱调位置还是明显的失误。不过,经过 gemini OCR 的结果还是比起 ABBYY FineReader 16 好太多了

0006.rar (2.7 MB)

哥们,日语语法书的数字化文本校对你有兴趣不?我计划进行朱万清《新日本语语法》、赵基天《新概念日语语法》、战宪斌《现代日语语法大全》、杨诎人《现代日语系统语法》四本书的OCR扫校。四本书中,朱万清本一校用的豆包1.6v、豆包1.8文本,二校用paddleocr-vl出的文本进行;赵基天本一校用的夸克、paddleocr-vl文本,二校计划用豆包2.0pro或豆包1.8出的文本进行;战宪斌《现代日语语法大全》、杨诎人《现代日语系统语法》一校计划采用夸克、paddleocr-vl文本进行对勘,二校计划用豆包2.0pro或豆包1.8出的文本进行。按我想法,每本书至少经过三个校次,第三校次由多人合力完成。参与其中一本书部分一校加一本书全本二校可以获享所有精校数字化文本。
目前朱万清本的一校、赵基天本的一校均已由我独力完成,朱万清本的二校由wynick27兄弟进行。不知道你是否有意向参与其中?

不好意思,我对语法类的mdx制作没兴趣

好吧,没关系。这类语法书做成mdx意义也不大,利用搭载gemini模型的notebooklm知识库进行统合检索、知识问答倒是不错

gemini感觉需要根据结果调整提示词,要反复试几次什么提示词更好。我现在一般都是用paddleocr和gemini各识别一个版本然后对比校对。如果问题不严重我比较倾向后处理。而且模型也有关系,gemini 3.1反而喜欢一次识别多页时中间就停下,2.5反而一般不会出问题。
这本书是《研究社 日本語複合動詞活用辞典》吗,我之前也拍了一部分,大模型识别下划线效果比较一般,可能需要后处理。

是的,我先前制作没电子化的辞典都是拆书后单张扫描,但这本书太贵了(反而 “日本語新辞典” 我有两本拆了一本。话说此帖的书,为了制作 “日本語語感の辞典” 我买了三本拆了两本!!),我只拍照,之后再用ABBYY帮我OCR,再手工输入制作

研究社的书确实贵。有的没资源的书我也买了几本,都是只买了一本,我也不舍得拆了,所以都是直接拍的,效果肯定不如拆了扫描好。abbyy我之前用过,感觉对多语言的词典支持很差,现在主要用几个ocr工具对比识别了。