中文最强。英文谷歌OCR是王者
现在2.5 flash的额度也调的很低,而且flash在生僻字和符号方面明显弱于2.5 pro。还好我主要的大部头词典都识别完了,剩下补数据我试试手动调gemini 3。
合合识别结果里的标点符号不忍卒读啊,太差了。合合不接受提示词,想怎么解析就怎么解析。有少量的文本行重复输出。
把识别的样本发一张看看,看看是什么类型的书籍,以后好避免。我主要用合合识别读秀的中文书,标点符号基本全对,一页顶多错一两个字。
合合OCR识别中文书的标点错误主要在破折号上“——”,其他问题不多。
# Aa
**A,a[e]([复]A's,a's或As,as或Aes,aes[eiz])**英语字母表第一个字母1表示“第一”的符号2数】第一已知数3[A]A字形4[A][化】元素氩(argon)的符号5[A][音】A音,A调6[A]<美>学业成绩最优的符号:anA(或a straight A)student最优等生7[A]A 血<u> 型</u>8[A]英>表示“(电影)只供成人观看”的级别代号9[A]英》表示“干线道路”的代号:The A3 runs from London to Portsmouth.3号干线连接伦敦和朴次**茅斯。from** **A** **to** B从甲地到乙地/from AtoZ从头至尾;彻底地/not **know from A to** B一字不识;什么都不懂
A abbr 1 ace 2 ampere(s)3 angstrom(s) 4 answer
a1[强ei;弱ə],an[强æn;弱ən,n]art[不定冠词]1(非特指的)一(个):a book一本书/an uncle 一位叔叔/a horse一匹马/an hour一个小时/aUFO一个不明飞行物/an IOU一张借据2(一类事物中的)任何一个:An owl can see in the dark.猫头鹰黑暗中看得见东西。3每一(个):sixty miles an hour 每小时60英里4同一(个):Things of a kind come together,people of a mind fall into the same group.物以类聚,人以群分。5[用于两件通常配在一起的东西前]:a knife and fork一副刀叉6[用于某些复数名词前,表示一个单位]:spend an additional two weeks 再花两星期7[用于不可数的抽象名词前,表示一种、某种]:have a strong love of adventure 极爱冒险8[用于某些物质名词前,表示一种、一客等]:a green tea 一种绿茶/an ice cream一客冰淇淋9[用于专有名词前,表示类似的一个或某一个]:A Miss Alice is looking for you.一位艾丽斯小姐在找你。10[用于专有名词前,表示某人的一部作品、一件艺术品,或某厂的一件产品]:a complete Shakespeare一套莎士比亚全集[注意下列句子和短语中a或an的位置:How interesting a book (或What an interesting book)this is!这本书真有趣!/on so grand an occasion(或 on such a grand occasion)在这样隆重的场合/It is too difficult a book for beginners.对初学的人来说这本书太难了。]
| a 一般用于读音以辅音音素开始的词前;an 用于读音以元音音素开始的词前。<br> |
| --- |
$a^{2}[a]$ ]v aux<口> $=$ have:He'd\~come if he could.要是能行他本来会来的。
a3 abbr 1 absent 2 acceleration 3 acre 4 alto 5 answer 6拉>ante( $mn$ before)7 atto-
a-[ə]pref1用以加强语气:arise 2表示“on”,“in”,“to",“into":afoot,asleep,aside,asunder 3表示“of”:anew 4表示“from”:abridge 5表示“out”:amend6表示“not”:asexual
A1,A-one['ei'wan]adj口>第一流的,极好的
A3['ei'θri:]n(规格为 $420x297\mathrm {\sim mm}$ 的)A3号纸
A4['ei'fx]n(规格为 $297\times 210\mathrm {\sim mm}$ 的)A4号纸
A5['e'faiv]n(规格为 $210\times 148mm$ 的)A5号纸
AA abbr 1 Alcoholics Anonymous 2 antiaircraft **3**Automobile Association(英国)汽车协会
**AAA** abbr 1 Amateur Athletic Association(英国)业余体育协会2 American Automobile Association 美国汽车协会
**AAAL** abbr American Academy of Arts and Letters 美国艺术和文学学会
**AAAS** abbr 1 American Academy of Arts and Sciences 美国艺术和科学研究院2 American Association for the Advancement of Science 美国科学发展协会
**AAF** abbr Army Air Forces(美国)陆军航空队
aah[a]☐vi(因惊、喜等)发出“啊”声口n“啊”声
**AAM** abbr air-to-air missile 空对空导弹
**A** **&** **E** abbr accident and emergency英》(医院的)事故急诊部
**aardvark** ['advak] n 【动】土豚(食蚁兽的一种)
aardwolf['adwulf]([复]**aardwolves** ['a:dwulvz])n 【动】土狼(产于非洲南部)
**aargh[a**:] int 啊[表示痛苦、恐怖、愤怒等,常带诙谐意味]
aardvark
Aarhus['xhus]n 奥胡斯[丹麦港市]
Aaron['earan]n1艾伦(男子名)2亚伦(基督教《圣经》中人物,摩西之兄,犹太教的第一祭司长)
**Aaron's beard** n植】金丝桃
**Aaron's** **rod** n 1【宗】亚伦神杖(能创造奇迹,后化为蛇)2植】毒鱼草;一枝黄花3建绕蛇杆形饰
**AARP** abbr American Association of Retired Persons 美国退休人员协会
**AAS** abbr American Academy of Sciences 美国科学院
**AAUP** abbr American Association of University Professors 美国大学教授联合会
AB1[ie'bi:]n AB(血)型
AB2abbr 1 able-bodied (seaman) 2 airborne 3<拉>Artium Baccalaureus 文学士( $=$ Bachelor of Arts)
**Ab** abbr antibody
ab[æb]n[常作~s]<口>腹肌
ab[æb]拉>prep从,自(=from)
ab-[æb]pref表示“脱离”:abdicate,abduct
**ABA** abbr 1 Amateur Boxing Association(英国)业余拳击协会2 American Bar Association 美国律师协会3American Bookssellers Association 美国书商协会
**aba** ['æbə]n1驼毛(或山羊毛)织物2(阿拉伯人穿的)宽大无袖长袍
abaci['æebosai]abacus的复数
**aback** [ə'bæek]adv 1<古>向后2海】逆帆,处于顶风位置be **taken~吃一惊**:She was taken\~by his rudeness.他的粗暴让她吃了一惊。
符号,音标,上标,这些基本不能直接使用。中英文还可以,但也有不少错误。对比各位用谷歌 gemini 得到的识别结果,可以说合合识别结果较差。以前没对比觉得合合还是挺好的。
gemini 3的ai studio版本好像有600秒输出时间限制,所以25页内容要分两次才能输出完,一个2000页的词典直接用的话很麻烦。
你把两栏拆开,OCR 的准确率会提升一大截。上标音标的识别结果很依赖底本的质量,如果底本质量差,只能依赖 LLM 补全,Gemini 强在这里。
A, a [eɪ] ([复] A’s, a’s or As, as or Aes, aees)
英语字母第3个字母 4 [ə] 表示“第一”的符号[2]第1个字母 5 [ə] [音] A音, A字形 6 [ə] [化] 元素氩的符号 7 [ə] 学业成绩最优的符号 8 [ə] A(或a straight A)学生最优等生 9 [ə] A血型 10 [ə] (英)“干线道路”的代号。A3 runs from London to Portsmouth. 3号干线连接伦敦和朴次茅斯。 from A to B 从甲地到乙地;from A to Z 从头至尾;彻底不懂。
A abbrev 1 ace 2 ampere(s) 3 angstrom(s) 4 answer
a¹ [ə] 1 [ə] 强, 强人, 强人, 强人, 强人 2 [ə] art(不定冠词)1(非特指)一个:a book一本书 / an uncle一位叔叔 / a horse一匹马 / an hour一小时 / a UFO一个不明飞行物 / an IOU一张借据 2(一类事物中)任何一个:An owl can see in the dark. 猫头鹰在黑暗中看得见东西。3(每个):sixty miles an hour 每小时60英里 4(同一个):Things of a kind. 物以类聚,人以群分。5(用于两件通常配在一起的东西前):a knife and fork一副刀叉 6(用于某些复数名词前,表示一个单位):spend an additional two weeks 再花两星期 7(用于不可数的抽象名词前,表示一种、某种):have a strong love of adventure 极爱冒险 8(用于某些物质名词前,表示一种、一客等):a green tea 一绿茶 / an ice cream一客冰淇淋 9(用于某些名词前,表示类似的一个或某一个):A Miss Alice is looking for you. 一位艾丽丝小姐在找你。10(用于专有名词前,表示某人的一部作品、一件艺术品、或某件产品)注意下列句子或短语中 an 或 a 的位置:How interesting a book(或What an interesting book)this is! 这本书真有趣!/ on so grand an occasion(或on such a grand occasion)for beginners. 对初学者来说这本书太难了。]
a一般用于读音以辅音音素开始的词前;an 用于读音以元音音素开始的词前。
a² [ə] [ə] v aux(口):have;He’d come if he could. 要是能行他本来会来的。
a³ [ə] 1 absent 2 acceleration 3 acre 4 alto 5 answer 6 [ə] ante(before)7 atto
a⁴ [ə] pref 1 用以加强语气;arise 2 表示“on”、“in”、“to”、“into”;afoot, asleep, aside, asunder 3 表示“of”;anew 4 表示“from”;abridge 5 表示“out”;amend 6 表示“not”;asexual
A1, A-one [ˈeɪwʌn] adj(口)第一流的,最好的
A3 [ˈeɪθriː] n(规格为 420×297 mm)的A3号纸
A4 [ˈeɪfæks] n(规格为 297×210 mm)的A4号纸
AA abbrev 1 Alcoholics Anonymous 2 antiaircraft 3 Automobile Association(英国)汽车协会
Qwen3-VL-8B 估计要改提示词,音标上标很多幻觉。
A, a [eɪ] ([复] A’s, a’s 或 As, as 或 Aes, aes [i:z]) 英语字母表第一个字母 1 表示“第一”的符号 2 【数】第一已知数 3 [A] A字形 4 [A] 【化】元素氩(argon)的符号 5 [A] 【音】A音, A调 6 [A] <美> 学业成绩最优的符号: an A (或 a straight A) student 最优等生 7 [A] A血型 8 [A] <英> 表示“(电影)只供成人观看”的级别代号 9 [A] <英> 表示“干线道路”的代号: The A3 runs from London to Portsmouth. 3 号干线连接伦敦和朴次茅斯。 ◇ from A to B 从甲地到乙地 / from A to Z 从头至尾;彻底地 / not know from A to B 一字不识;什么都不懂
A abbr 1 ace 2 ampere(s) 3 angstrom(s) 4 answer
a¹ [强 eɪ; 弱 ə], an [强 æn; 弱 ən, n] art [不定冠词] 1 (非特指的)一(个): a book 一本书 / an uncle 一位叔叔 / a horse 一匹马 / an hour 一个小时 / a UFO 一个不明飞行物 / an IOU 一张借据 2 (一类事物中的)任何一个: An owl can see in the dark. 猫头鹰黑暗中看得见东西。 3 每一(个): sixty miles an hour 每小时 60 英里 4 同一(个): Things of a kind come together, people of a mind fall into the same group. 物以类聚, 人以群分。 5 [用于两件通常配在一起的东西前]: a knife and fork 一副刀叉 6 [用于某些复数名词前, 表示一个单位]: spend an additional two weeks 再花两星期 7 [用于不可数的抽象名词前, 表示一种、某种]: have a strong love of adventure 极爱冒险 8 [用于某些物质名词前, 表示一种、一客等]: a green tea 一种绿茶 / an ice cream 一客冰淇淋 9 [用于专有名词前, 表示类似的一个或某一个]: A Miss Alice is looking for you. 一位艾丽斯小姐在找你。 10 [用于专有名词前, 表示某人的一部作品、一件艺术品, 或某厂的一件产品]: a complete Shakespeare 一套莎士比亚全集 [注意下列句子和短语中 a 或 an 的位置: How interesting a book (或 What an interesting book) this is! 这本书真有趣! / on so grand an occasion (或 on such a grand occasion) 在这样隆重的场合 / It is too difficult a book for beginners. 对初学的人来说这本书太难了。]
☞ a 一般用于读音以辅音音素开始的词前; an 用于读音以元音音素开始的词前。
a² [ə] v aux <口> = have: He’d ~ come if he could. 要是能行他本来会来的。
a³ abbr 1 absent 2 acceleration 3 acre 4 alto 5 answer 6 <拉> ante (= before) 7 atto-
a- [ə] pref 1 用以加强语气: arise 2 表示“on”, “in”, “to”, “into”: afoot, asleep, aside, asunder 3 表示“of”: anew 4 表示“from”: abridge 5 表示“out”: amend 6 表示“not”: asexual
A1, A-one ['eɪ’wʌn] adj <口> 第一流的, 极好的
A3 ['eɪ’θri:] n (规格为 420×297 mm 的)A3 号纸
A4 ['eɪ’fɔ:] n (规格为 297×210 mm 的)A4 号纸
A5 ['eɪ’faɪv] n (规格为 210×148 mm 的)A5 号纸
AA abbr 1 Alcoholics Anonymous 2 antiaircraft 3 Automobile Association (英国)汽车协会
Gemini 3 Pro Preview 这个效果很好。
看来 AI 还是可以的。音标可以另外填充。
大家还在聚焦双解词典的OCR吗?
我个人以为,如今大模型时代,是时候转换一下长期以来的双解词典OCR赛道了:
一是既然已有 karl 引入AI 对OED进行翻译的路径,似乎重点转向探讨如何用好API、保证翻译质量上就好;
二是OCR可以重点聚焦绝版的好书,实现文本化,以便于个人研读、给大模型训练提供优质的新数据等等,这方面我推荐杨燕起的史记集评(史记研究集成第6卷);
三是薅帝国主义羊毛,利用AI翻译国外高质量的最新版教科书,等待国内翻译的纸质版太慢了,出版时通常落后英文版两个版本左右,这方面我推荐生物学、心理学的。
有道理,然而本坛坛友还是聚焦于词典的多。
现在用豆包的越来越多。
OCR和ai翻译优秀教科书,我都有相当的实践,我的结论是没什么用,这是个分裂、混乱和躺平了的世界,根本没人care,大行其道的是垃圾和娱乐至死。
像生物学,清华大学2008年出版的《生物学》(第6版,Peter H. Raven 著)就是绝佳的教科书,比国内流行的陈阅增《生物学》强很多倍,内容深入全面,图文并茂,但实际没多少人读过。是否版本最新,也不是太重要,因为一门基础性学科的知识比较固定,很少在若干年内就大幅度更新。
另一本同样著名的生物学教科书是Campbell Biology(目前已是12th Edition),我下载已经翻译了,规模较大,后处理比较麻烦,没有出版社接手是没法继续进行的,于是又找了一本比较小的书,《生物学核心概念》(Eric J. Simon 著)代替了,翻译完成后也是“闲抛闲掷野藤中”。
国内引进优秀基础性教科书的薄弱环节其实是地球科学和地质学,我找了一些书,尝试过翻译了几种,但同样,以个人之力这些项目没有可持续性。
《史记集评》这种书,如今OCR比较容易,不过尚需少量进一步的处理,整理格式,校对等。
史记集评.zip (3.2 MB)
谢谢分享。其实这种OCR后的首版文本,对于业余历史爱好者来说,足以提供启发。对于专业研究者来说,这种电子版资料的作用是便于检索,如确定要进行学术引用、那会去查找可靠的纸质版或其扫描版确认。
如果是头部AI企业,如需要获得更准确的文本,还可以训练专门的模型来给这种有错别字的OCR文本进行校对、找错别字,当然最终需要人工确认。
出版社接手前需要先谈下版权,各种流程走下来,出版时自然就落后了,没有办法的事。
我希望更多的大学在校研究生、本科生依托这些大模型去自己搞本专业的最新外文教科书,毕竟我国的版权法给高校教学使用留了个口子。自己或组个小组动手、高校圈子内使用、不拿去牟利,既可以提高自己python、AI应用能力,搞出来的文本在专业性上的保障也好一些。
当然,利用AI翻译的方法论层面的,本论坛大可讨论交流。
现在这些出版社在想的是什么搞不大清楚,比如中国有个地质出版社,我认为它一大作用可能就是积极 block 国外优秀地质学、地球科学图书的翻译和引进。
像Edward J. Tarbuck, Frederick K. Lutgens编写的《Earth Science》 (Earth Science - Anna’s Archive ),我读过一遍英文版,它可比国内出版的同类书高明多了,但从来没有引进过。

