《朗文多功能分类词典》文本(OCR提取)

这本词典分类聚合相关词汇,理念独特,词头15000左右,体量适中,算是真正可以读也值得读的词典。

OCR用的主工具是 Gemini 2.5 Pro,也用“合合”识别了一遍,可做对比校核之用。

贴在这里的是初步提取出来的文本,尚未校对修正,请谨慎使用。

朗文多功能分类词典.txt (6.0 MB)

未合并原始文件,每25页一个文本,分割形式更方便比较。

Gemini(原始分解文档).zip (2.6 MB)
TextIn(原始分解文档).zip (2.6 MB)

6 个赞

识别时用的prompt:

OCR,识别提取pdf文件当中的文字。要求如下:

1. 页面最顶部页眉部分的非正文索引文字删除不要;页脚部分表示页码的阿拉伯数字,置于“〈〉”符号之中,且把它放在输出最开始的位置,下面加一空行;假如不存在页码,用“〈?〉”占位表示。
2. 正文部分首尾要完整识别,不可遗漏内容。
3. 页面左右分栏,识别阅读顺序为先左栏再右栏。
4. 每页起始部分的文字,无需和上一页连接在一起,按照原书排版自然断开即可。
5. 这是一本英汉词典,注意//符号内音标的正确表示。此书的IPA音标使用了下列符号,给出供参考。
辅音(Consonants):b, d, ð, dʒ, f, g, h, j, k, l, m, n, ŋ, p, r, s, ʃ, t, tʃ, θ, v, w, z, ʒ
元音(Vowels):æ, ɑ, ɑ:, ɒ, aɪ, aʊ, aɪə, aʊə, ɔ, ɔ:, ɔɪ, ɔɪə, e, eə, eɪ, eɪə, ə, əʊ, əʊə, ɜ, ɜ:, i, i:, ɪ, ɪə, o, u:, ʊ, ʊə, ʌ
主重音:/ˈ/
次重音:/ˌ/

6. 文内有小目录,用长横线和它下面的各词条分割,请用<hr/>标记来表示此长横线,且在下面加一空行。
7. 每一个词条都有词头(headword),在每个段落的开始悬垂突出排版,黑体,后面是//内的音标等。为了和词条的释义部分有效区分,请把这些词头一律放在【】符号内。
8. 以plain text格式输出识别的文本,各段落之间用一个空行分隔。
9. 文中如果遇到图表,请以markdown格式排版。如果是图像,识别图像周边相关文字,且在这些文字前后各空两行,以和别的正文相区分。
10. 你的默认输出长度限制是65536个token,把它用足,不要偷懒。
11. 每一个pdf文件有25页,需要全部识别,不要没完成任务就半途中断。

切记,下面这里是至关重要的要求和标准,务必满足:在同一页面内,同一词条中的相关释义文字要编辑合并在一个自然段落里,不可像图中那样因为版面限制而断开分行。

————————

下面我给出若干示例识别文本:

【membership】/ˈmembəʃɪp/ [GC] all the members [⇨C10] of a society, club, union, etc (指社团、俱乐部、团体的)会员; 全体会员; 全体社员: We have a very large and active membership. 我们有许多积极热心的会员。The membership is/are unhappy with the present chairman. 会员对现任主席不满。Where is the membership list? 会员名单在哪儿?

C76 nouns 名词: other larger groups of people [GC] 其他大批的人群

<hr/>

【body】/ˈbɒdɪ/ [usu sing] a (large) number of people (close) together (一大) 群, 队; 队; 帮; 伙: A body of horsemen rode towards them. 一队骑马的人向他们疾驰而来。Those soldiers are a fine body of men. 这些士兵是一队优秀的男子汉。The angry crowd came forward in a body. 愤怒的人群一齐走了过来。The workers marched in a body towards the factory. 工人结队向工厂行进。

【crowd】/kraʊd/ a large number of people together, usu without organization (指没有组织的) 人群: A crowd of excited people waited to see the film stars. 兴奋的人群等着要看电影明星。The streets were full of crowds of people. 大街上挤满了人。I couldn't get to you because of the crowds. 因为人群拥挤, 我无法走近你处。He goes around with a crowd of other young men. 他常和一群别的年轻人在一起。
5 个赞

如果在prompt里头要求把粗体放入<b></b>、斜体放入<i></i>,后面制作MDX会省事一些

目前的模型正文内的粗体、斜体识别误判很多,少量页面实验还行,没法大批量实施。