图片词典中制作时什么方法将词典扫描页面中的所有词头找出来速度最快？

lbhl · 2021 年2 月 14 日 03:27

用ABBY FineReader OCR之后，除了词头还有正文解释。如何将正文解释去掉只留下词头是最快速高效方法？
谢谢！

fruition · 2021 年2 月 14 日 04:40

此問題頗為難解，大多數詞典詞頭都會有音節，而音節正是導致OCR錯誤的字符，此類就算抽離詞頭也是頭大，光是校對的功夫省不了力氣，反更費力，所以 Chigre 先粗配出區間內的單詞，再一一去點擊於劃線的位置，若有缺再手工補之
或者直接轉成 epub ，再從 epub 的標簽處理
或先轉成 word 再轉成 epub , 或許會好一些，但不管何程序其轉出的標簽均非常複雜，就算以正則處理也很費體力，若是詞條有音節，抽離後依然得費力的去校對，所以不如以上述所提及粗配到每頁的頁面單字後再以 Chigre 的工具處理，可能會省點功夫，畢竟萬變不離其宗，音節的問題不管如何處理均是難以跳脫的門坎，與其去校對不如去一個個點選來的省力