考虑的点:支持的文种(日、韩、俄……;简体、繁体:对于每种文种,可以考虑专攻此文种的OCR软件),支持横排/直排,支持自动识别分栏
用过 abbyy,感觉划分识别区域不够智能,恐怕不能胜任上千页的词典识别
多栏处理思路:为什么Abbyy和Acrobat在单栏索引的ocr上的表现都很差?
用老马的工具把内容框平移了再Briss裁剪成单栏
感觉不少坛友都在用Gemini识别。
AI识别现在能保留许多格式(黑体、下划线、标题等),多语种方面Gemini最好,但对汉语生僻字的识别能力很差。
国内方面,合合、Qwen、豆包都很好,但目前看见在多语种和格式还原上做得没有比Gemini好的。
但AI识别的问题在于时不时出现的幻觉,不过不多
现在切分成单栏其实已经没必要了,各模型基本都能处理多栏文本。
根据我的经验中文生僻字用合合,夸克,paddleocr都不错,paddleocrvl 1.5在生僻字上有提升,但在版式识别上有时部分矩形框会丢失。
gemini综合恢复格式和你想让他加各种格式标记或者结构化输出的话比其他的模型强非常多。其他模型很多是只在ocr方面调优的,其他方面就不行了,但gemini幻觉是比较严重的,经常会丢失条目和自己编一堆条目,对排版比较密的幻觉率应该能超过10%,但多语种方面除了日韩国产模型都不行。
另外日语竖排文本夸克完全不行,经常错误当成横排然后旋转页面识别成乱码,合合容易输出为左右阅读的,gemini经常顺序错乱,paddleocr这方面很好。
比如有三栏的页面,这些模型都能准确按顺序输出吗?
是的,如果从左到右阅读的话顺序一般不会错。
比较关心价格问题,查到一个帖
Gemini什么价格?
转贴 OCR 新工具。
日本国会图书馆释出免费 OCR 软件,无需高阶计算机也能用!
这个不是 lite 版的。
看了下还是要cuda,docker那套啊,依赖不比paddleocr之类的少,不过好像对日文有优化。
装了半天,测试了下效果不太好:
あ
〓二五
あ・ア五十音図ア行第一の仮名。音節a平仮名「あ」は
「安」の草体、片仮名「ア」は「阿」の行書体の偏。〔ヘボン〕
〓残一(造)一次ぐこと。つぎ。第二のも
ア【亜:亞】
〓〓一(造)〓次ぐこと。つぎ。第二のも
の。「-種・-流・-熱帯」㊁「亜細亜(ア
の。「-種・-流・-熱帯」〓「亜細亜(ア
ジア)」の略。「東-・欧-大陸」〓「亜爾然丁(アルゼンチ
ン)」の略。〓「堊(ア)」の代用字。「白-」二(接頭)〔理
無機酸で、酸素原子が少ないこと。「-硫酸
一〓〓一(造)㊀おもねる。へつらうこと。「-世
-誤(ュ)」〓サンスクリット語のaの音訳字。
言語の第一で、同時に否定辞。「-昨(ウン)・-字・-弥
陀(ミダ)」〓「阿波(アワ)」の略。「-州」〓「阿弗利加(アフ
リカ)」の略。「南-連邦」二(接頭)人を親しんで呼ぶ時に
冠する語。↓「御(オ)〓」「-兄・-父・-○」熟訓-漕
(アコギ)。〓-(アズマヤ)。
一〓鎖(造)ことばを発することのできないこと。こ
ア(〓】
とばが話せない人。おし。「-者・-然・-鈴・
盲-・聾(ロウ)-」
一〓(〓〓アク)(造)しろい土。しらつち。しつく
ア(堊】
い。(「亜」とも)「白-館(ホワイトハウス)」
〓(〓ヱ(エ)・〓ワ・ワイ)(造)カエル。かわず。
ア(蛙】
一「-声・-鳴〓噪(センソウ)・井-」
一〓〓(造)病気。特に、なおりにくい病気。難
▲病。「宿-養-
あ〓ア段の音で終る語の下に助詞「は」の付いた形の、ぞんざ
いな発音。「此間-道草あ、食つて〔草枕〕」〓ア段の音で
終る語の語尾を、ぞんざいに又は方言で延ばした発音。「馬
鹿-いひたまへ[当世書生気質」
あ(嗟】(感)〓急に気がついたり驚いたりした時に発する声。
〔ヘボン」「エリスは振り返へりて、『-』と叫びぬ〔舞姫」」「平
手打に絶(シタタ)か吃(クラワ)すれば、-(〓)と両手に痛を
抑へて〔金色〕」「-、痛たツ〔平凡〕」①感動して発する声一
㊁呼びかける時に発する声。「-、山田君」〓返事に発する
声。軽い表現に用いる。「-、左様(ソウ)か〔草枕〕
ああ(副)あのように。〔ヘボン〕「-仲が好(ヨイ)のは(略)心
得違ひが有ツてはならぬから〔浮雲〕」①事柄を概括的にさ
していう。「若い作家の奇妙な書き方の文章を素破抜い
病気。難
ゐる人があるが(略)-云ふ人がもう一三人もゐてくれたらと
〔谷崎・気になること〕」「-言えばこう言う」
ああ【(嗚〓呼・(嗟(乎】(感)〓感動して発する声。「-情け
ない[ヘボン〕」「-、いかにしてか此恨を銷せむ〔舞姫〕」「-
(吁)〔夢の女〕」「山のあなたの空遠く『幸(サイワイ)』住む
と人のいふ。噫、われひとゝ尋(ト)めゆきて、涙さしぐみかへ
りきぬ〔海潮〕」①呼びかける時に発する声。〓承諾する時
に発する声。「(呼んで下さいなと芸者に言われて)-。トいつ
たきり、恍爾(ウツカリ)として居る[当世書生気質〕」「-い
ゝとも、何時でも居る〔草枕〕
ノーク(arc)弧。円弧。弓形。ートウ一ー灯・-(燈】二つの
電極に電流を通じ、放電により白熱光を出させる電灯。ア
ークライト。アークランプ。〔風俗明二九」「アアク燈に照らされ
た人通りの多い往来を、須田町の方へ向つて〔葱〕
アーケード(arcade)①壁又は天井にアーチを用いた建物。
㊁商店街の道路上を覆う屋根。また、その道路。
アーサasA(American standards associationの略)
アサ。エーエスエー。〓〓米国標準規格協会。日本のJis
に当る。㊀「」による、フィルム感光度の指数。
ノース(earth)(名・スル自他動)電気回路の端子を大地に
接続すること。また、その装置。接地。また、感電事故防止
のため電気製品の金属のおおいと大地をむすぶこと。
アーチ(arch)①建造物の骨組で、円弧・放物線・懸垂曲線
を主要素とするもの。せりもち。「薄暗き-の下迄倫敦
塔〕」㊁緑の葉で包み飾った仮設の門。緑門。〔風俗明二二〕
〓野球で、ホームランのこと。「先制-連続-
ノーチェリー(archery)欧米式の弓術。その弓矢。洋弓。
めあっ(感)驚いた時などに発する声。「薪の山が、すごい火勢
で燃えてゐる。(略)お母さまの、-、といふ叫びが聞えた〔斜
陽〕」
アーティクル(article)①新聞や雑誌の記事・論説。㊀条
約などの箇条・条項。〓品目。
アーティザン(artisan)→アルチザン
アーティスト(artist)芸術家。美術家。アーチスト。〓アル
チザン
ノート(art)芸術。美術。技術。ーシ【紙】きめのこまかい
顔料で表面加工した洋紙。写真などの印刷に用いる。
ノートシアター(art theater)芸術映画。実験映画などを
専門に上映する映画館。
アートディレクター(art director)広告・出版・演劇・映
画などで、美術監督。a.d
アーバン(urban)(造)都会風の。都市の。都市生活的な。
ーライフ・ーりニューアル(都市再開発)・-デザイン(都
市計画)」
ノーベント(〓abend)(「晩」「夕方」の意)夜開く催し。
アーミー(army)軍隊。陸軍。
アーム(arm)腕。又は腕に似たもの。腕木。
ノームチェア(armchair)安楽いす。ひじかけいす。〔風俗明
三四〕
アームレスリング(和製語arm-wrestling)腕相撲。
アーメン(amen)一(感)(ヘブライ語で、「まことに」「はい、そ
のように」の意)キリスト教で、祈りの終りなどに唱える語。
「アメン[ヘボン〕」「弟は世に憐れなる声にて『-』と云ふ〔倫
敦塔〕」二(名)(さげすんで)キリスト教信者。「捨さんの学
校は耶蘇だつて言ふが、それが少し気に入らない。(略)-は
嫌ひだ〔桜の実〕」
アーモンド(almond)バラ科の落葉高木。モモの近縁種。種
子の仁は食用でナッツの一種。アメンドウ。ハタンキョウ。
ノール(フare)メートル法の地積の単位。一アールは百平方
メートル。記号a
アール【R・〓】〇英語のアルファベットの第十八字。㊀【R】
①(rightの略)〓右。〓L〓直角。②(roofの略)エレ
ベーターなどで「屋上」を表す記号。〓(radiusの略)「半
径」を表す記号。
アールエイチインシ【Rh因子】赤血球の凝集素の一。
母体と胎児でこれの有無(プラス・マイナス)が一致しないと
死産などの危険を生ずる。
ノールデコ(フart deco)一九二〇~三〇年代にフランス
を中心に西欧に流行したデザインの様式。直線・円を基調
とする幾何学的な装飾性を特色とする。
アールヌーボー(フartnouveau)(「新芸術」の意)十九
世紀末から二十世紀初に流行した装飾美術の様式。ヌー
ボー式。〔風俗明三七]
〓〓一(名・造)かなしむ。かなしいこと。かなし
アイ【哀、
〓〓一(名・造)かなしむ。かなしいこと。かなし
み。「-を思ふ〔ヘボン〕」「-歓・愁・悼・
一み。「-を思ふ〔ヘボン〕」「-歓・-愁・-悼・
悲-」二(造)〓あわれむ。あわれがること。「-憐(レン)・
話」①「なげいて」「あわれっぽく」の意。「-願・-訴」熟訓
可-(カワイ)。
一〓〓(造)㊀ほこり。ちり。「塵(ジン)-」㊁
〓〓(造)㊀ほこり。ちり。「塵(ジン)-」㊁
「埃及(エジプト)」の略。
「埃及(エジプト)」の略。
〓一(名・造)〓かわいがる。いつくしむこと。
〓一(名・造)〓かわいがる。いつくしむこと。
一また、その心。愛情。「-を失ふ〔ヘボン〕」「同情
アイ【哀】
アイ
アイ【(埃)
アイ【愛】
だとか、-だとか、正義だとか、自由だとか〔草枕〕」「動物的
の-〔平凡〕」「-育・-児・最-・自-・慈-・情-・寵(チ
秀
你好。我请教个问题,最近在用网页版paddleocr识别,生成的markdown文本在跨页的时候会出现回车。就是一段文字到页面最后一行没有结束,跨页到下一页的时候,在页末最后一行最后一个文字后面会出现一个回车。您的方法是不是也是用正则表达式处理一下多余的空行?
跨页合并需要特殊处理,我目前处理方法是都是中文或者日文就直接合并,如果第一页最后以连字符结尾,第二页以字母开头就删去连字符,如果都是字母要加空格,如果是其他特殊符号开头就保留换行。但这种处理可能也有问题,没有通用解决方案。
明白,感谢。我也是这样处理的。
