这是不是意味着我的切图有局部位置不对的?
不是,这部分是ocr问题,切图问题只有之前那几处,这个是因为ocr文本其中一页词条换页时有一处多输出了页首词头,另一页丢了一个词条,但这两个错误距离很近,结果就是只有这两处之间错位,我是按1000个词检查是不是对齐的所以没查出来。
补充paddleocr识别结果:
外研社日汉双解_paddleocr.7z (11.0 MB)
感谢!新年快乐!
补加一个豆包2.0pro的测试内页截图、测试扫描结果和提示词模板——
内页截图:
扫描结果:
【上页词条残留】どこしていた学校。現在の小学校および中学校の一部にあたる。/(日本) 国民学校。
こくみんけんこうほけん⑨【国民健康保険】(名) 健康保険の一つ。公務員や会社員以外の、自営業者などを対象に国が行う社会保険。/ 国民健康保险。
こくみんしょとく⑤【国民所得】(名) 全国民が一定期間に新たに生産または獲得 < かくとく > した財貨を貨幣 < かへい > に換算 < かんさん > したものの総額。/ 国民收入。
こくみんしんさ⑤【国民審査】(名) 最高裁判所の裁判官が適任かどうかを国民が投票してきめること。/ 国民审查。
こくみんせい⓪【国民性】(名) その国民全体に共通している性質。/ 国民性。例「陽気な~」/ 开朗活泼的国民性。
こくみんそうせいさん⑦【国民総生産】(名)《経》→ジーエヌピー
こくみんたいいくたいかい⑨【国民体育大会】(名) 各都道府県の代表選手によって毎年行われる全国的なスポーツ競技会。国体。/(日本) 国民体育大会。
こくみんとうひょう⑤【国民投票】(名) 国政にかかわる特別な重要事項 < じこう > を決める、国民の直接投票。/(日本) 国民投票。参考日本国憲法では、憲法の改正について規定されている。
こくみんねんきん⑤【国民年金】(名) 厚生 < こうせい > 年金などに加入していない人がおかねを積み立てておいて、年をとったり病気やけがで働けなくなったりしたときに、国から年金を受け取る制度。/(日本) 国民年金。
こくみんのきゅうじつ⓪【国民の休日】(名)「国民の祝日に関する法律」で定められた休日。祝日と祝日とにはさまれた平日を休日とするもの。/(日本) 国民休息日。
こくみんのしゅくじつ⓪【国民の祝日】(名) 国民が決めた祝いの日。/ 国民假日。国民节日。→しゅくじつ
こくむだいじん④【国務大臣】(名) 内閣を組織して国務にたずさわる大臣。/ 国务大臣。
こくめい②⓪【克明】(形動ダ){クツメイ} 細かいところまでじゅうぶんに明らかにするようす。/ 认真仔细。细致。例「~な記録」/ 详细的记录。
— 左右栏分隔线 —
こくもつ②【穀物】(名) 米・麦・あわ・豆など実が主食となるもの。穀類。/ 粮食。谷物。
ごくもん⓪【獄門】(名)①ろうやの門。/ 狱门。牢门。②江戸 < えど > 時代の刑罰 < けいばつ > の一つ。罪人の首をきり、ろうやの門などにさらしたこと。/ 枭首示众。
こくゆう⓪【国有】(名) 国家が所有すること。/ 国有。例「~財産」/ 国有财产。→土地の国有化 / 土地的国有化。対私有・民有
こくようせき③【黒曜石】(名)《地質》火山岩の一種。半透明 < はんとうめい > の黒色でガラスのようなつやがある。みがいて、装飾 < そうしょく >・器具用にする。/ 黑曜岩。
ごぐらか・る④⓪(自五){ゴクラカル} こんがらかる。/ 纠葛。混乱。漫无头绪。
ごくらく④⓪【極楽】(名)①【仏】「極楽浄土 < ごくらくじょうど >」の略。/“極楽浄土” 的略称。②たいそう安楽な境遇 < きょうぐう > や場所。/ 极乐。西天。天堂。類天堂。《対地獄 < じごく >》
ごくらくじょうど⑤【極楽浄土】(名)【仏】阿弥陀仏 < あみだぶつ > がいるという、苦のない安らかな世界。極楽。/ 极乐净土。
ごくらくちょう⓪【極楽鳥】
(名)【動】フウチョウ科の鳥。雄 < おす > はからだの両側に長いふさふさした羽毛が出てひじょうに美しく、首は金緑色、胸はこい紫 < むらさき > 色、背中は黄褐色 < きたんかっしょく >。ニューギニアやオーストラリアにすむ。/ 极乐鸟。
(ごくらくちょう)
こくりつ⓪【国立】(名) 国家によって設立され、維持 < いじ >・運営されるもの。また、そのもの。/ 国立。対私立
こくりつこうえん⑤【国立公園】(名) 特に美しいけしきの地域で、国が指定し管理している公園。/ 国立公园。
こくりょく②【国力】(名) 国のもっている経済・産業・文化・軍事力などを総合した力。/ 国力。
こくるい②【穀類】(名) 米・麦・あわ・豆など、穀物として分類されるもの。/ 谷类。粮谷。
提示词模板:
请对以下展示的《日汉双解词典》内页截图进行高精度OCR识别,严格遵循以下规则:
- 结构识别要求:
- 正文为左右双栏横排,按「先左栏从上到下,后右栏从上到下」的顺序识别;左栏全部识别完成后,单独输出一行「— 左右栏分隔线 —」,再识别右栏内容。
- 页面顶部的上一页残留词条,放在左栏最开头,前缀标注【上页词条残留】。
- 内容识别规则:
- 日语字符:严格区分平假名、片假名,准确识别日本汉字(保留原字形,不得转换为中文简体),长短音、促音、拗音小假名必须准确,不得混淆。
- 所有编纂符号必须完整保留:
- 词头的词干、词尾连字符「·」不得遗漏。
- 方头括号「【】」、圆括号「()」、用例前缀「例」、释义及用例分隔符「/」、关联箭头「→」必须原样保留,不得替换或遗漏。
- 词条中用花括号括注的词尾变形注音片假名或个别字词旁标识的注音平假名均以双行(个别为独行)微细字体呈现,必须完整识别到位并用用
{x}格式、<x>格式标记。 - 带圈义项号「①②③」必须准确识别,不得替换为普通数字。
- 派生表达的缩进格式保留,每个缩进层级空2个字符。
- 中文内容准确识别简体字,不得和日语汉字混淆。
- 校验规则:
- 不得合并、拆分词条,不得改变词条原有顺序。
- 所有注释、语源说明、用例必须完整识别,不得遗漏。
- 注意区分片假名和外来语,不得将发音标记误判为外来语。
提示词模板也是豆包给的,基本套用只个别文句改换了一下,不过还有很大改进空间。整体而言效果还行,夹标双行假名除了词尾变化部分马马虎虎可以识别标示出来。就是token消耗太大了,单单一页就要两万token出头,即便豆包有协作奖励计划算力资源包可以白嫖,一天下来100页也搞不来
这本书是国内引进的少数几部有带原语释义的词典之一,就是对译语拟写不比其他几部前辈学人编译的那么考究,粗粗看过去就有那么几处有待推敲斟酌的地方。
对,这种任务调api很贵,因为是按token收费的,而一本词典几百万字,token也有几百万,我都是用gemini cli之类的识别,一次输出25页,差不多到输出token上限了。
我的第一本大部头日语词典就是这本(上一版的),还没翻熟,第二版就来了 ![]()
