【疑难词目(词头/条头)索引制作求助】请各位前辈指教如何从这本《拉汉科技词典》提取词头和对应页码?

各位前辈好,末学正试制一本图片词典,参考了本坛教程【交流】图片词典制作 - 技术交流与词典编修 - FreeMdict Forum等资料,但目前在词目索引提取方面遇到困难,请求支援!

词典价值

拉丁语是一种古老的语种,作为语言,现在基本上己不流通,被喻为“死的”语言。然而拉丁语仍驻足于一些学科范畴,流传至今,习见于科技文献之中。历来许多学科领域的科技工作者只有利用拉丁语去统一各自领域的科技名称和术语,才能尽量避免或澄清同物异名或同名异物等混乱现象,以利交流,这已是国际上公认的事实。科技领域国际交流渠道四通八达,需有各国学者彼此认可的科学用语作为共同准侧,如此非拉丁语莫属。例如在生物学中,尤其是植物分类学方面,凡建立新的分类单位(分类阶元)如科、属、种等,其命名必须按照《国际植物学命名法规》的原则,用拉丁语或拉丁化的词语公开发表后才算有效,才能被国内、外同行认可,才能享有优先权。所以,凡从事生物学、医药学、农学、天文学、古生物学等的科研、教学或编译工作者,最好具有一定的拉丁语水平。

《拉汉科技词典》是综合了医学、农学、化学、天文学和生物学(含古生物学)等科学领域的拉丁语词汇大全,可称为科技翻译必备工具。

词典剪影

(是一本已OCR、黑白增强图像处理的PDF)

难点介绍

  1. 本词典无索引,也无在线版可供抓取。
  2. 小语种,似乎无可参考的词目表。
  3. 拉丁语词目包括了变位形式但不完整,不知如何制作合适的词目。
  4. 希望提取词组,但词组的位置有缩进,这似乎也不利于提取。
  5. 某些页面存在歪斜区域,不知道这对识别是否有影响。

PDF源文件下载

百度网盘:拉汉科技词典
本站云盘:拉汉科技词典

4 个赞

退一万步,不幸真的没有自动化方法了,会有多少同志愿意协助人工录入呢(11万词条,也许需要100人……?)

  • 我愿意出力
0 投票人
2 个赞

这个是词汇翻译词典,整本书就是索引,制作索引就是文本化的过程,这纯纯就是OCR的问题了。这种词典做出来了有一个极好的好处,就是能使所有此专业的辞典支持双语检索。

比如生物学大辞典,自身只有拉丁语索引,搭配这个词汇翻译,就也可以支持中文检索。

2 个赞

看来,只能文本化了?虽然已经OCR,但识别率并不高,应该需要耗费大量人力。我没这方面经验,望之令人生畏……

1 个赞

目前有两位坛友愿意出力支持,谢谢你们!

我自知号召力不够,如此庞大的工程委托给几个人也不现实。转而咨询了一下淘宝商家的服务,报价3.5元/页(含校对),总价约2800元,也不是个人能承受的。

不知 @hua 大是否允许在本站公开接受捐赠的行为呢?如果得到了足够支持,成果将共享;如果募捐金额不够,将全数原路奉还。

我个人认为在本站搞众筹之类的活动不妥当。

像本坛这种公益网站很少见了,要生存下去可能并不容易。谨慎为是。

1 个赞

2800元搞这种小众词典不太现实。

捐赠可以,但是感觉很难搞到 2800。。你们可以论述一下这本词典的重要性,我可以考虑全额赞助。也可以先扫描,OCR 然后校对,能省一点校对的钱?

试试不同的ocr产品,有的已经很强大

这本词典不上不下,挺尴尬的,词典本身只是一本词汇翻译,是没有学科实质内容的,文本化吧它不值得那不小的工作量。

相较之下,拉汉词典里这本可能更值得做(不过不是专科词典):

https://061061.xyz/45919.html

大概是经常读这种粗略OCR后的文本,为什么我觉得这个OCR文本已经蛮规整滴…正确率挺高滴…

antrectomia,ae /.窦切除术
antritis.idis f.窦炎
antroatticotomia,ae f.鼓窦隐窝切 开术
antrocele,es J’.上颌窦积液
Antrodia,ae /.【植・真菌】薄孔菌属
antroduodenectomia,ae f.胃窦十 二指肠(溃疡)切除术
antrodynia,ae f.窦痛
antronalgia,ae f.上颌窦痛
Antrophyaceae.arum f. pl.【植• 水龙骨目】车前蕨科
Antrophyum.i n.【植•车前蕨科】车 前蕨属
Antropora.ae f.【动・苔葬虫】多穴 苔虫属
antrorsus,a,um 向前的,向上的
antroscopia,ae f.窦透照术,上颌窦镜检查
antrostomia,ae f.窦造口术
antrotomia,ae f,窦切开术
antrotonia,ae f.幽门窦张力
antrotympanitis.idis f.鼓室窦炎,鼓窦鼓室炎
antrum,i n.①窦,房②洞穴,树孔
antrum auris 耳道
antrum cardiacum 贲门窦
antrum ethmoidale 筛窦,筛骨泡
antrum folliculi 卵泡腔
antrum highmori上颌窦,海默尔 氏窦
antrum mastoideum 鼓窦,鼓房
antrum opylori 幽门窦
antrum pylorifcumi 幽门窦
antrum tympanicum 鼓窦,鼓房
antuitarismusj m.垂体前叶机能亢 进
Anturina,ae 【动•原生】安徒虫属
anularis,is,e 环状的
Anulatisporites,itis f.【植•古抱 粉】轮环也属
anulatus.a,um①有环的,有环纹的② 戴着戒指的
Anulifera,ae 【古动•腹足纲】多环 螺属
Anulomyces.etis 7n.1植•真菌】环 霉菌属
anulus( = annulus),i m.环
anulus inguinalis profundus 腹 股沟管腹环
anulus inguinalis superficialis 腹股沟管皮下环
Anuraeopsis,is 【动•龟甲轮虫科】 龟纹轮虫属
Anuraphis,is /.【动•财科】圆尾蜥属
anuria,ae /.无尿(症)
anus,i m.①肛门②环③戒指
anus cerebri大脑水管前口
anus praeternaturalis ①人工肛 门②异位肛门
anus vesicalis膀胱肛门(畸形)
anxietas.atis /.焦虑,担心,多愁善感
anxietas praesenilis 老年前期焦 虑
anxietas tibiarum 四肢不宁性焦 虑
Anyphaena,ae九【动•近管蛛科】近 管蛛属
Anyphaenidae,arum f. pl.【动•蜘 蛛目】近管蛛科
anyuanensisJs.e 安远县的[赣]
Anyuanestheria.ae f.【古动•介甲 目】安源叶肢介属
Anzia,ae 【植•藻】绵腹衣属
Aojia,ae1【古动・三叶虫纲】青地虫 属 _
aomorensis,is,e 青森的[曰]
aongiotensinasa,ae /'.血管紧张素 酶
Aongstroemia,ae f.【植・辞】昂氏 鲜属
Aongstroemiopsisjs f.【植・辞】拟 昂氏葬属
Aonides,is 【动・海稚虫目】锥稚虫 属
Aonidiella,ae/.【动•盾蛇科】肾圆盾 蛤属
AonidomytilusJ m.【动•盾蛇科】贝 盾蛇属
Aonyx,ycis m.【动,鼬科:小爪水獭 属
Aonyx cinerea 小爪獭

从文本中抓出10万6千条左右的词条,但是书的序言中说有11万条,不知道相差在哪儿,难道是四舍五入。当然也可能是我COPY的时候出问题。

此书的拉丁文不分长短元音,也没有戴帽子的符号,虽然还有些许错字,但基本上是较容易OCR的。

如果结合2-3家OCR的结果,相互文本比对,相信会把错误降到较低的程度,相比人工而言,轻松不少。

汉字部分错字较多,不少字很难录入,这种正确率相信很难入专家法眼,但对普通人而言,大部分一般的用语,已经勉强查得到了,虽然会迂回许多,感谢楼主提供了PDF档。

1 个赞

首先为没能及时回复美意向 @hua 大致歉。连日来奔波劳顿,每日偷不得几分钟来逛站,而要是拿这点时间来回帖实在不够认真,与其对不住毋宁暂时搁置。前几天超强台风『杜苏芮』和『卡努』将我禁足在家,也算是祸事带来的意外之便了,终于得闲复帖。无论最终赞助与否, 您的格局令人感佩,无怪乎能独立门户、聚诸英才,与走上歧路的前老大哥分庭抗礼。

关于费用方面要说明的是,OCR只是商家服务附带甚至忽略不计的,正如楼上几位所言,个人也很容易做。主要成本在于人工校对( 我和商家提的要求是拉丁及汉语词汇的错字、漏字及标点符号错误小于万分之三。其实也有能做万一的,但是价格成质的飞跃,就不考虑了),您的资助可以为有兴趣贡献的同志们省下极大的精力。

以下是我认为有必要向您介绍和补充的内容。为在保证叙述完整度的同时让阅读更便利,背景部分以『隐藏详细文本』格式呈现,请点击查看详情。

历史背景与应用例说

拉丁语(古希腊语)对英语影响深远

在所有古典语言中,希腊语和拉丁语对西方的语言、文学、历史、宗教、哲学、科学产生了最为深远的影响。

拉丁语(Lingula Latina)是印欧语系的一个分支,起源于意大利台伯河(Tibris)下游附近的拉丁姆(Latium)地区,是两千年前古罗马人的方言之一,后逐渐取代其他方言而成为罗马帝国的通用语言。随着罗马帝国的兴起和强大,罗马人首先征服了意大利,后来征服了欧洲的大部分,并向东扩展到印度,向南扩展到非洲撒哈拉大沙漠,由此拉丁语在地中海沿岸、西欧、阿拉伯地区和印度等地广泛传播,成为罗马帝国的官方语言。

罗马帝国灭亡之后的几个世纪,拉丁语作为宗教、文学、科学的文字及受过教育的人的辅助语言仍然受到重视。有人甚至称它为联合各国学者的国际语。现今世界上有60多个国家先后采用拉丁语字母拼写本国文字,包括汉语拼音在内。拉丁文字母作为科学符号为各国所通用。在语言方面,它成为了法语、意大利语、西班牙语、葡萄牙语、罗马尼亚语等现代罗曼语(Romance languages)的母语,这些语言中的大量词汇都来自拉丁语。可以说,所有这些民族实际上都在说一种现代形式的拉丁语。英语中也有超过一半的词汇直接或间接来源于拉丁语。从这个意义上讲,拉丁语的确是一门活着的死语言(living dead language)。

作为古希腊文明的主要继承、发展和传播者,拉丁语吸纳同化了很多古希腊语词汇。作为罗马帝国的官方语言,拉丁语对欧、亚和北非的众多民族语言及社会生活各方面产生深刻影响,催生了意大利语、法语、西班牙语和罗马尼亚语等拉丁语族诸语言。罗马帝国后,拉丁语作为口语消亡了,但它作为欧洲社会的书面共同语被继续使用,并伴随基督教在欧洲的兴起,影响力进一步加深,成为当时宗教、行政和文化交流的媒介。许多著名学者都曾用拉丁语著述,如哥白尼、牛顿、莱布尼茨和林奈等。

拉丁语对英语的词汇、语法、读音等诸多方面产生了积极的作用,尤以对词汇的影响最为深刻。现代英语词汇中,约60%都来自于拉丁语和以拉丁语为祖先的罗曼语言。从历史和语法上来讲,英语属于日耳曼语系;从词汇来讲,英语又更接近罗曼斯语系。英语在其1500年的发展史中,经由罗马征服、基督教传入和诺曼征服等历史事件一直在大量地、不拘形式地向拉丁语借用,具体表现在以下几个方面:

1.英语字母

构成英语词汇的最基本的26个英语字母,实际上是拉丁字母。更准确地说,公元前3000年至2000年之间,两河流域的苏美尔部落发明了楔形文字;在此基础上,公元前600年,腓尼基人结合埃及的象形文字发明了一种拼音字母;后希腊人修改为希腊字母;公元前500年至罗马共和国时代,罗马处在模仿希腊文明时期,他们仿照希腊文字创造了拉丁字母。拉丁字母原有24个,公元16世纪加进了字母j,近代科学发展的需要又增加了字母w。由于拉丁字母字形简单清楚,便于认读书写,流传很广,成为世界最通行的字母。

2.词汇

英国词源学家Walter W. Skeat在他所编著的英语词源词典中将英语词汇按照词源分类如下:凯尔特词源,占2%;古典词源(即拉丁语和古希腊语),占56%;日耳曼词源,占33%;混合词源占3%;东方、非洲等其他词源,占6%。其中,古典词源的单词词源较为复杂,词义较为生僻,且所占的比例高达56%。

日常英语常用拉丁文词汇

常用单位的拉丁文缩写

3.词素

拉丁语的词根(roots)、前缀(prefixes)、后缀(suffixes)在构词中发挥着十分重要的作用。以拉丁语黏着词根-dic(t)-(“to say,to tell or to speak”说,以下以 * 代替)为例,它与不同的前缀、后缀结合,可以构成许多词,如benediction(L.root bene-“good,well”+* +L./Gr.suffixion,“quality,state,action”=a good saying,a blessing祝福,祝祷),contradict(L.prefix contra-“against”+* =to speak against反驳,否认),dictionary(* +L./Gr.suffixion,“quality,state,action” + L./Gr.suffix-ary“place where”=a book which tells information about words字典),还有contradiction、contradictor、dedicate、dictate、dictator、diction、edict、indicate、malediction、predict、verdict等等。

据前苏联研究者表明,古希腊语词根有400多个,其中绝大部分进入了拉丁语,然后又从拉丁语进入了英语。张华编《实用英语词汇学》附录中收录的拉丁语、古希腊语词根多达479个;拉丁语、希腊语前缀有111个,后缀有132个。

小结

拉丁语离我们并不遥远。作为世界上最古老的语言之一,它将细胞输送到现代英语体内,并通过它焕发出新的活力。英语词汇在字母、词、词素、杂交词、同义词、同音异义词、缩略词等各个方面,无不展示出拉丁语成分的巨大影响。

拉丁语(古希腊语)是当代英语的科学语言系统的基石和源泉

一般认为,科学语言指对科学思想、理论、知识等进行表述、加工、交流、记录时,所使用的手段、工具、载体的总称。作为科学的表述系统,科学语言在科学知识的形成中具有重要的作用。知识和思想的表征、交流、传播甚至构造,都离不开语言。语言是沟通思维和实在的中介,而科学语言对于具体科学学科的发展来说,其意义尤显重要。一方面,专门科学语言的形成,是学科成熟的重要标志,可以说,科学的发展历史,也包含着科学语言的生成发展过程,科学语言与科学的演进本身同步进行;另一方面,科学语言是科学的重要知识单元,它的各个组成要素,诸如术语、符号、概念、文本等,共同构成了完整的知识结构,塑造了具体学科的知识框架,既是科学理论的表述载体,也是保证科学思想进行无障碍交流的必备条件。科学语言的生成发展是在人类文明和科学的宏大背景中进行的,是科学、哲学和语言交织互动的结果。

在科学语言中,最重要的方面就是科学术语。在西方科学语境下,从科学术语的意义上看,今天一统天下的英语科学语言的形成过程中,首要的就是以拉丁和希腊语言来进行科学语言词汇的构造和使用。拉丁语和希腊语构成了整个西方科学语言的主体。古希腊文明是整个西方科学文明的发源地,而拉丁语也曾在罗马帝国扩张时逐渐成为了整个西方社会的通用语言,为西方的科学发展奠定了最初的基础。因此,不难发现古典古希腊语和拉丁语遍布各个科学领域,数学,物理,哲学,医学,天文,地理,化学…无不充斥着这两者的身影。20世纪之前,科学语言(包括技术语言)中,“几乎百分之百都是拉丁词汇或拉丁希腊词汇”(John Hough)。事实上,自公元前9世纪希腊字母出现,进而传入罗马形成拉丁字母以来,虽然直到15世纪拉丁文才成为正式的科学语言,并从18世纪走向衰落,但是在整个的这一千余年时间里,希腊拉丁语一直是国际间文化、科技交流的语言,是联系统一欧洲之精神和学术的共同语言。究其原因,主要有以下三方面:

首先,希腊文明在整个西方文化中具有长期的影响力。古希腊时期是西方文明和学术发展的第一个重要阶段。即便是在罗马帝国灭亡之后的相当长一段时间内,使用拉丁语作为生活语言,仍然是在这一文明下生活着的人们的一个长期而持续的习惯。早期的科学经典巨著,诸如牛顿1689年的《自然哲学的数学原理》,林奈1768年的《自然系统》,都是用拉丁文写就的。

其次,希腊拉丁语本身的品质决定了它们非常适合作为科学语言。西方早期文明大都以希腊拉丁文记载下来。尤其是为了读懂原版圣经以及神学家和圣经注释者的著作,都必须学习希腊拉丁文。这既是传承文明的需要,更是基督教社会特别的要求。因此,希腊语被视为是人类语言的最高贵的形式,而其后的拉丁文则更具简洁明了的特征,非常适合于科学家使用。

第三,科学的内在需求促使科学语言中保持着较高比例的希腊拉丁词汇。虽然后来的英语成为国际通用的语言,但是,一种语言过于简单易用,并不适合于作为科学词汇,而更适用于作为生活和文学的语言。对于科学来说,客观的、无歧义的表述是它对语言的基本要求。在这一点上,生活或文学中跟科学中对语言具有不同的要求。科学要求它的术语须是自明的,这样,通过术语的词根,就可以很清晰的理解该术语所指称对象的本义。而且,使用那些不太熟悉的术语来表述特定的思想和认识,可以方便的把科学语言和生活语言区分开来,这对于各自语言的使用者来说,都很有价值。同样,科学术语本身奇异的、甚至比较难看的字母组合形状,使得它们无法让人产生更多感性联想,不容易因使用者而改变,有助于保持意义的稳定。

一般来讲,科学家形成科学术语的方式主要有如下三种:

其一,借用词(borrowed words)。早期的科学家苦于无法表达全新领域中所发现的思想和事物,因此,一般的惯例就是采用日常语言中使用的术语来进行表达。这就造成一个后果,科学语言有时会跟日常语言的意义混淆起来,容易对术语的理解产生歧义。与此同时,一些日常语言中的词汇,在科学语言的新语境中,慢慢确定下来,具有了固定的科学用法,原来的日常用法反而被淡忘了。这类词非常多,比如“cotyledon”,原指杯状的洞,后被借用为开花植物的种子叶;“diverticulum”,原指小道或旁路,被借用为支囊、憩室等;“pulvillus”,原指小的垫子,借用为昆虫足部的爪垫。更明显的是“parasite”这个词,希腊语为“parasitos”,是形容词,指在旁边吃食或同一桌子的另一边吃饭。生物学家借用来作为名词,指生活在其他物种中的有机体,通过吃食宿主的组织或食物而生存,即寄生虫。但是,当今天的人们听到用这个词来指“游手好闲之人”时,会误认为这是“寄生虫”这个词的隐喻性用法,但事实上,“游手好闲之人”却正是它最初的用法。

其二,外来词(imported words)。当代英语的科学语言系统中,不仅外来语在英语中非常普遍,而且在英文科学术语中也很多。由于借用希腊拉丁文已经成为科学中构词的主要形式,因此,引入外来语作为英语科学术语的表达也成为一种趋势。文艺复兴时期就已经有了“整个拉丁文都是潜在的英语”的观念。而14世纪以来,科学家更从拉丁文中直接引用了无数的词汇。这些英语科学术语不仅在拼写上,而且在意义上,都完全跟原来的拉丁文相同。从《朗文科学惯用语词典》可以看出,英语中的大部分词汇都来自希腊和拉丁文,140余种希腊和拉丁文词素是英语科学术语的主要构词材料。比如,几乎所有的化学元素全都是用希腊语和拉丁语表示,“sodium(钠)”、“oxygen(氧)”、“helium(氦)”等等。同样明显的是西医,几乎所有的疾病和药物都是用希腊语和拉丁语来表示,而且是把希腊罗马神话中诸神的神名,通过词义的引申来对医学术语进行命名。如以希腊神话中巨人阿特拉斯(Atlas)命名的“atlas(寰椎)”、“atlas vertebra(颈椎)”等,就取自阿特拉斯用颈椎支撑头部来擎天这一传说。希腊神话英雄阿基里斯(Achilles)以善跑著名,于是,与跟踺相关的词也来自于他,如Achilles tendon(跟腱)、achillodynia(跟腱痛)等等。

构成一种语言的词汇往往拥有数十万、甚至数百万个词,并且为适应新的需要每天都在创造新词,很难知道某个词是在什么确切的时候诞生的。然而在科学领域中我们不仅有可能知道某个术语诞生的日期,而且还可以较容易地知道创造该术语所使用的古希腊语或拉丁语的词根。比如说:Chlorine(氯),源自希腊语khlσros(绿色)。该元素在1774年被瑞典化学家契尔(Scheele)发现,英国化学家戴维(Davy)在1810年,因为该元素在常态时是以黄绿色气体形式存在,于是借用古希腊语绿色以Chlorine为之命名。再比如说:placebo(安慰剂),源自拉丁语placebo(我将希望,我将安慰)。现在所说的placebo effect(安慰剂现象)于1955年由毕阙博士(Henry K. Beecher)提出,指病人虽然获得无效的治疗,但却“预料”或“相信”治疗有效,而让病患症状得到舒缓的现象。

当出现一项新的科学技术时,前缀后缀,词根的引入一般有如下三种方法:

① 直接引用希腊语。比如说-logy尾缀来自于古典希腊语logos,意为论述,后引申为学科的意思,由此派生出如astrology(天文学),topology(拓扑学),sociology(社会学),ecology(生态学),physiology(生理学),biology(生物学)……再比如说-graph尾缀,来自于古典希腊语graphw,意为写,于是就有了派生词demography(人口学),geography(地理学),photography(摄影学)等等。

② 直接引用拉丁语。科技英语中很多缩写:cf. confer(比较),e.g. exempli gratia(举例),et al. et ali(i其他);再比如说在科技英语中常见的数学证明的末尾出现的Q.E.D,其实是拉丁语quod erat demonstrandu(This was demonstrated.)的缩写。

③ 通过引用拉丁语来引用古希腊语。Petra-是一个希腊词根,经过变形成petra-拉丁词根后进入英语,表示石头,而属于拉丁语的词根lapis则很少用,多用于较为文雅的文字中。如petro(l汽油),petroleum(石油),saltpetre(硝石)等。(齐冲,1998) 但是要注意的是,当古典古希腊语的词根进入到拉丁文的时候,词根可能会产生音变,比如说hex是个古希腊词根,为“六”的含义,而进入到拉丁语后音变成sex ,这些在英语中都可以找到痕迹,hexagon(六边形),sextant(航海定向仪器,也称六分仪)。

其三,创造词(invented words)。在当代英语科学词汇中,借用词和外来词虽然是重要的构词形式,但由于科学的快速进步,使得任何一种语言都无法很好的满足它的需求,因此借用词和外来词只占整个科学词汇的一小部分,更多的词汇需要科学家自己去创造。同样,在创造科学术语中,科学家们也总是求助于希腊和拉丁文,这是一贯的做法。事实上,现代科学的英语术语中,除了希腊和拉丁词汇之外,很少有来自其他语言的。而且,科学家创造词汇是一个相当简单的过程,既不需要考虑感性的因素,也不需要考虑语词本身的审美特性。科学家只要根据自己的需要确定词汇,并做出界定,方便后继者认识就可以了。

比如,在描述光纤通信的技术领域常常使用的光纤,我们会描述成single-mode fiber(单模光纤)和multi-mode fiber(多模光纤),但是当表示光线中传输的光的时候,我们会使用monochrome light(单色光)和polychrome light(多色光)来表示。在这里,single和multi分别来源于拉丁语的词根singuli(单独的,唯一的)和multus(许多的),而mono和poly是来自于古典古希腊语的词根。再如aerodynamics(空气动力学),又如television是由tele-(远程)这个古希腊语词根和vision(视觉)这个来自拉丁语词根的单词共同组成的。

历来许多学科领域的科技工作者只有利用拉丁语去统一各自领域的科技名称和术语,才能尽量避免或澄清同物异名或同名异物等混乱现象,以利交流,这已是国际上公认的事实。科技领域国际交流渠道四通八达,需有各国学者彼此认可的科学用语作为共同准侧,如此非拉丁语莫属。在英语中,专业性越强的词汇直接或间接源自拉丁语的比率就越高。至今医学、植物学、生物学、化学等众多学科仍以拉丁文(语素)为本学科的国际命名标准。拉丁语本身具有的准确性、简明性、极强的构词能力和在科技先进的欧美各国知识阶层间的公识性,都促成其成为世界上众多学科的科学语言,为最新的科学技术提供源源不断的生命力。

各学科相关科技词汇例说

植物学

拉丁语最值得注意的保存是生物分类学和林奈设计的双名法。在生物学中,尤其是植物分类学方面,凡建立新的分类单位(分类阶元)如科、属、种等,其命名必须按照《国际植物学命名法规》的原则,用拉丁语或拉丁化的词语公开发表后才算有效,才能被国内、外同行认可,才能享有优先权。

所谓双名法,其实是植物学家对植物命名的一种定式。粗略地讲,就是每个物种只能有一个正确的科学名称(也即学名),该学名必须由两个拉丁文或者拉丁化的词语构成,其中第一个词为该物种所在属的属名,第二个词为种加词(或者叫种小名),是拉丁化的人名或地名,也可以是一个描述该种特征的说明词等等,比如可食用的(edulis)、中国的(sinensis或chinensis)。而由于在命名上经常出现晚出等名或晚出同名,它们在命名上都属于非法名称且不能使用,因此,一个物种完整的正确学名应该为“属名+种加词+命名人”。在科学上,只有这样的名字,才被能认定是这个物种正确的、合法的、标准的名称。此外,在一些组合种名的后面,还必须标明基名的命名人以及修订者的姓名等。
image008

这个规则看似简单,但其实对于植物学发展非常重要。尽管人类很早就开始认识植物,可由于认识局限,古人对于植物的分类、命名并不十分严谨,同名异物、同物异名的情况常有发生。加之历史上的流变,情况就变得更为复杂。比方说,武侠小说里所说的“断肠草”,从植物学角度看至少有30多种,马钱科钩吻属、毛茛科乌头属、瑞香科狼毒属、紫堇科紫堇属,都有植物被称作“断肠草”——所以,打小儿生长在湖北的程灵素和原籍浙江的黄蓉如果聊起断肠草,她们头脑中想到的可能根本不是一种东西……

再比如英文中的bluebell,在英格兰指的是风信子属的蓝铃花(Hyacinthoides non-a(L.) Chouard ex Rothm.),在苏格兰指的是风铃草属的圆叶风铃草(Campanula rotundifolia L.),在北美则指的是滨紫草属植物(Mertensia Roth)。在这种连植物种类都说不一致的情况下,科学研究、学术交流就更是困难。

动物学
动物学名的构成与植物学名相似,也采用双名法,即由属名和种加词构成。以我们熟识的物种人类为例:智人 𝘏𝘰𝘮𝘰 𝘴𝘢𝘱𝘪𝘦𝘯𝘴。 𝘏𝘰𝘮𝘰 一词指的是属,而 𝘴𝘢𝘱𝘪𝘦𝘯𝘴 指的是种。目前, 𝘏𝘰𝘮𝘰 (人属)只包括一个仍然存在着的物种。

医学
世界各国医学工作者早在1895年就共同做出了以拉丁语为医药界国际用语的决定。规定正规的医药名称和处方均用拉丁语书写。

部分常用处方拉丁文缩写

要想学好医学词汇单单掌握英语是远远不够的。比如儿科疾病,不是child disease,而是pediatric diseases;口腔学不是mouth study而是somatology。医院科室也是用拉丁语或希腊语标识,比如gynecology(妇科),orthopaedics(骨科),pediatrics(儿科)。在西方国家,拉丁语和希腊语合称古典学,长期是大学课程的核心,所以西方学生对于学习源于拉丁希腊语的医学英语并不困难,但对于中国学生来说拉丁语和希腊语是完全陌生的语言,所以医学英语词汇的学习对中国学生是一种极大挑战。

医学术语中有超过75%的词汇来自于古典希腊语和拉丁语。据国外不完全统计,每年光新增的医学单词就超过2000个,这当然离不开医学分支每年的扩增和发展。仔细剖析会发现,医学中的专业术语几乎都是由古典希腊语和拉丁语的前缀和后缀构成的。医学英语词汇的构成主要有三种方法:转化法、合成法及派生法,其中最为常用的是派生法,即在词根上附加前缀或后缀来组成新词,如cardio(心脏)+pathy(疾病)=cardiopathy(心脏病)。而这些词根和词缀绝大多数源自希腊语和拉丁语,他们根据需要形成各种不同的组合,衍生无数新词。如:oto(希腊源:耳)+neur(希腊源:神经)+algia(希腊源:疼,痛)=otoneuralgia(耳神经痛)。可以这么说,拉丁、希腊词素在医学英语词汇中之所以具有举足轻重的作用和影响,除了历史的原因以外,还与它们都拥有丰富的词根和词缀有关,这一点从下面的一些例子即可见一斑(G代表希腊语,L代表拉丁语):



药学
拉丁语在生物学界和医药卫生学界广泛应用,并由此发展为各种应用性的拉丁语,医药拉丁语就是其中的一种是医药卫生工作者必须掌握或熟悉的工具之一。


在中医药学领域,自古就与拉丁语有着多方面的联系和应用。我国明代医药学家李时珍所著的《本草纲目》Compendium of Materia Medica自17世纪以来就先后被译成拉丁文等多种文字,促进了其在世界范围的流传,《本草纲目》有关内容曾被著名英国生物学家达尔文以及后来的《大英百科全书》所引用,对全世界自然科学做出了举世公认的卓越贡献。作为世界著名传统医学体系的中医药学亦应遵循。中药来源鉴定的最终目的是确定中药的正品来源,明确其学名。

化学

在欧洲,到十九世纪初,随着超来越多的化学元素的发现和各国间科学文化交流的日益扩大,化学家们开始意识到有必要统一化学元素的命名。瑞典化学家贝齐里乌斯首先提出,用欧洲各国通用的拉丁文来统一命名元素,从此改变了元素命名上的混乱状况。

化学元素的拉丁文名称,在命名时都有一定的含义,或是为了纪念发现地点、发现者的祖国,或是为了纪念某科学家,或是借用星宿名和神名,或是为了表示这一元素为某一特性。如:

镁——拉丁文意是“美格里西亚”,为一希腊城市。
钪——拉丁文意是“斯堪的纳维亚”。
锶——拉丁文意为“思特朗提安”,为苏格兰地名。
镓——拉丁文意是“家里亚”,为法国古称。
铪——拉丁文意是“哈夫尼亚”,为哥本哈根古称。
铼——拉丁文意是“莱茵”,欧洲著名的河流。
镅——拉丁文意是“美洲”。
钐——拉丁文意是“杉马尔斯基”,俄国矿物学家。
镶——拉丁文意是“爱因斯坦”。
镄——拉丁文意是“费米”,美国物理学家。
钔——拉丁文意是“门捷列夫”。
锘——拉丁文意是“诺贝尔”。
铹——拉丁文意是“劳伦斯”,回旋加速器时发明人。
钒——拉丁文意是“凡娜迪丝”希腊神话中的女神。
钷——拉丁文意是“普罗米修斯”,即希腊神话中那位偷火种的英谁。
钍——拉丁文意是“杜尔”,北欧传说中的雷神。
钽——拉丁文意是“旦塔勒斯”,希腊神话中的英雄。
铌——拉丁文意是“尼奥婢”,即旦塔勒斯的女儿。

说来有趣的是钽、铌二种元素性质相似,在自然界是往往共生在一起,而铌元素也正是从含钽的矿石中被分离发现的。从这个角度来看,分别用父、女的名字来命名它们,确是很合适的。

碲——拉丁文意是“地球”
硒——拉丁文意是“月亮”
氦——拉丁文意是“太阳”
铈——拉丁文意是“谷神星”
铀——拉丁文意是“天王星”
镎——拉丁文意是“海王星”
钚——拉丁文意是“冥王星”
金——拉丁文意是“灿烂”
银——拉丁文意是“明亮”
锡——拉丁文意是“坚硬”
硫——拉丁文意是“鲜黄色”
硼——拉丁文意是“焊剂”
铷——拉丁文意是“暗红”,是其光谱谱线的颜色
铯——拉丁文意是“天兰”,是其光谱谱线的颜色
锌——拉丁文意是“白色薄层”
镭——拉丁文意是“射线”
氩——拉丁文意是“不活泼”
碘——拉丁文意是“紫色”
氮——拉丁文意是“不能维持生命”。我国曾译作“淡气”,意为冲淡空气。后以“炎”入“气”成“氮”。
氯——拉丁文意是“绿色”。我国曾译作“绿气”,意谓“绿色的气体”。后以“录”入“气”成“氯”。
氢——拉丁文意是“水之源”。我国曾译作“轻气”,喻其密度很小。后以“巠”入“气”成“氢”。
氧——拉丁文意是“酸之源”。我国曾译作“养气”,意谓可以养人。也曾以“养”入“气”成“氧”,再由“氧”谐声,造为“氧”,但仍读“养”音。
钾——拉丁文意指海草灰中的一种碱性物质。我国应其在当时已经发现的金属中性质最为活泼,故以“甲”旁“金”而成“钾”。
碳——拉丁文意是“煤”。因我国古时称煤为“炭”,遂造为“碳”。

目前国际上对化合物的名称大多要求用英语表示,用拉丁语表示的较少。然而,许多词汇是沿用拉丁语或由拉丁语转化而来的,其读音和拼写均与拉丁语有关。例如,


天文学

在科技还不发达的古代,人的裸眼所能看到的天体极为有限,全天也只能看到6000多颗天体,其中只有少数明亮的天体拥有名字。然而,1609年,当伽利略将望远镜指向天空的那一刻,一个全新的宇宙呈现在人们眼前。随着望远镜的不断升级,天文学家看到了越来越广的星空。

对于恒星来说,拜尔恒星命名法是目前被广泛采纳的命名法之一。它首次公布于1603年,是用小写的希腊字母加上所在星座的拉丁名称来命名恒星。一般将视亮度最亮的记为Alpha,第二亮的记为Beta,以此类推。因此,天狼星也叫做大犬座α(Alpha Canis Major,简称 α CMa )。在24个希腊字母都被指定后,又先后引入了小写和大写的拉丁字母(a到z,A到Z)来标记恒星。

以猎户座(Orion) 为例

天文学家有时会用大写拉丁字母来区分位于双星系统或多星系统中的恒星。同样用天狼星举例,1862年科学家发现它实质上是一个双星系统,我们所看到的明亮的恒星是系统中的主星,被称作天狼星A(Sirius A),还有一颗白矮星伴星,被命名为天狼星B(Sirius B)。

某些恒星的亮度会发生变化,我们将之称为变星。变星的命名建立在拜尔命名法的基础上,由大写字母和星座名称的拉丁属格组成,例如天琴RR变星(RR Lyrae variable)。

太阳系非彗星小天体(包括被称为小行星、微型行星、小行星-彗星混合体的天体,以及它们的卫星)的命名受国际天文学联合会(IAU)出台的规则与指导方针约束。其中提到在天体获得永久编号起十年内,经小行星中心认可的发现者(无论是提名个人,还是巡天项目)都有权提出命名,而命名必须使用现代拉丁文。

现状与本词典的优势

目前,国内出版的科技类拉汉词典内容大多偏重于某一学科,如植物学、动物学、无脊椎动物学、微生物学、医药学等,鲜见涵盖多种学科的拉汉科技工具书。很多拉丁术语往往一词涉及不同学科,如果把它们综合起来,尽量使之成为一本各学科都适用的拉丁语-汉语工具书,使用起来,岂不更方便!《拉汉科技词典》就是这样一本综合了医学、农学、化学、天文学和生物学(含古生物学)等科学领域的综合性拉丁语专业词汇工具书,可称为科技翻译必备工具。该书收录了约11万个词条,除汉语释义外,该书还提供词语所属学科以及分类单位信息或其他相关信息,力求让读者查阅方便,这是别的拉汉科技类词典不能比拟的。

实际用例举隅,足以体现其内容综合丰富、释义准确的独特优势:

理解“智人”(Homo Sapiens)
图片图片

事物重名的逻辑引人好奇
图片

查一得多,融会贯通
图片

出版介绍

《拉汉科技词典》于2018年由商务印书馆正式出版,由中国科学院植物研究所研究员陆玲娣、朱家柟担任主编,研究员周世良等参编,历经14年编撰完成,所有词条都经历了录入、核对、修改、编辑、多轮校对的精细编撰过程。由于拉丁语仍然是科技领域的书面交流语言之一,特别是在物种、药品、星辰等名称方面有着不可替代的作用,本词典有助于科研、教学或编译工作者顺利阅读和掌握拉丁语文献,推动相关学科领域的发展。

至于中文互联网,可用的拉丁语电子词典几乎均来自于 [许一诺] (许一诺 - 知乎)和本站收集的 Index of /100G_Super_Big_Collection/拉丁语&古希腊语/。然而,这些为数不多的资料中少有以汉语释义者,更无一专于科技领域;它们可以有力辅助对已消亡历史人文经典的研究,却对当下拉丁语最具活力和应用价值的科技领域无能为力。本词典如果能够顺利电子化将填补这一令人惋惜的空白,并借由过程中产生的词条数据公开共享而毫无疑问带动更多富有价值的科技领域拉丁语-汉语词典的电子化。

回应与致谢

@Mandolin 的寥寥数语如同拨云见日。

话虽如此,我觉得倒也不为遗憾。大部分疾病的诊疗活动中,『诊』的重要性占百分之八十,一旦经由权威专家确诊,那么接下来的『疗』甚至可以遵照指南在下级的医疗机构中完成。同样的,如果『确诊』了某词的权威译名,相关的进一步资料检索起来已经非称难事了,例如可去 Wikipedia《中国大百科全书》第三版网络版术语在线—权威的术语知识服务平台 和 知网的 工具书总库 查询详情。何况正如前所述,这本词典的电子化有助于各类学科词典的电子化,其中自然有包括详细内容词条者,例如本词典的
图片
可供《地理学名词(第二版)》制作参考。



您的建议很好,但实际上结果还是会有大量包括格式在内的错误,不经过人工校对不太能产出好的电子化版本。


本主题下各位的讨论都是有益的。至今有4位站友投票表示了信任与支持,站长更是愿意慷慨解囊,非常感谢大家!

主要参考资料

题录列表

[1] 周锋. 科技英语中拉丁语和古典希腊语的不朽生命[C]//第十四届全国科技翻译研讨会. 中国广东广州, 2011: 7.
[2] 陆玲娣. 拉汉科技词典[M]. 北京:商务印书馆, 2017.
[3] 扈文杰,李引乾主编. 兽医拉丁语[M]. 咸阳:西北农林科技大学出版社, 2008.
[4] (美)弗雷德里克·韦洛克,理查德·拉弗勒著;张卜天译. 韦洛克拉丁语教程 第7版[M]. 北京联合出版公司, 2017.
[5] 叶创兴,石祥刚编著. 植物拉丁文教程[M]. 北京:高等教育出版社, 2012.
[6] 李峰. 中药拉丁语 新世纪第2版[M]. 北京:中国中医药出版社, 2016.
[7] 国际天文学联合会小天体命名工作组, 赵经远翻译. 太阳系非彗星小天体的命名规则与指导方针[Z/OL]. https://www.wgsbn-iau.org/documentation/translations/V1.0/NamesAndCitations_SimplifiedChinese.pdf.
[8] 尹媛, 倪艳红. 从词源学角度探索医学英语词汇教学策略[Z]//医学教育研究与实践: 卷 27. 2019: 688-693.
[9] 苏萍. 希腊、拉丁语言文化对医学英语词汇的影响[J]. 首都医科大学学报(社会科学版), 2012(00): 247-249.
[10] Bayer designation[Z/OL]//Wikipedia. (2023-06-22)[2023-08-07]. Bayer designation - Wikipedia.
[11] 恒星命名 - 维基百科,自由的百科全书[EB/OL]. [2023-08-07]. 恆星命名 - 维基百科,自由的百科全书.
[12] 化学元素命名趣谈----中国科学院兰州化学物理研究所[EB/OL]. [2023-08-07]. 化学元素命名趣谈----中国科学院兰州化学物理研究所.
[13] 科学网—韦洛克来了 拉丁语离我们还远吗?[EB/OL]. [2023-08-07]. https://news.sciencenet.cn/sbhtmlnews/2009/9/224069.html.
[14] 科学语言的形成、特征和意义-马克思主义学院[EB/OL]. [2023-08-07]. 科学语言的形成、特征和意义-马克思主义学院.

[15] 没骗你,这是一本你值得拥有的科技宝典[EB/OL]. [2023-08-07]. https://mp.weixin.qq.com/s/pd7CjjHZzWbIQpev-KqO0w.
[16] 如何为天体命名_恒星[EB/OL]. [2023-08-07]. 如何为天体命名_恒星.
[17] 要没有这门“死语言”,植物学可能就玩不转了……[EB/OL]. [2023-08-07]. https://www.sohu.com/a/231633976_745506.
[18] 英语中来源于拉丁语的词汇,哪些是直接来自拉丁语的,哪些是在诺曼征服后借由法语而吸收进来的? - 知乎[EB/OL]. [2023-08-07]. https://www.zhihu.com/question/56815666.
[19] 自然博學:物種名稱和命名物種[EB/OL]. [2023-08-07]. https://zh.hkbiodiversitymuseum.org/post/自然博學:物種名稱和命名物種.


1 个赞

诚如楼主所言,拉丁语挺有用的。

供参考,PandaOCR有图片批量识别的功能(需要购买PRO,如果要用的话,我已经买了,可以帮你激活),调用好的接口可以ocr出几种文本。未来需要校对也可以找我,就是做得比较慢;如果要找淘宝,我也可以支持几百元没问题。

1 个赞

贴一个拉丁词典合集(倒是没有拉汉,主要是拉英):

https://latin-dict.github.io/

1 个赞

谨致谢意~
:t_j_loveyou:

多谢解惑。

我想对于我来说,焦点在于花钱能提升多少文本化的准确率,你统计过 OCR 的正确率吗?以及此价格是否为行情?

或许能听听许一诺的意见也是不错的,如果可能的话。

1 个赞

ocr推荐 Google Vision API

2 个赞

以下供您参考。

① 经过测试,即使是成熟的商业软件,面对拉丁字母和汉字混排的格式(更兼术语中常有生僻字),OCR结果也难堪一用(粗估错误率在百分之五以上)。

随机选取页面OCR效果展示

② 经过权衡成本效益和比较报价(万分之三错误率标准下,淘宝平台文本校对服务商家开价3.5~12元/页),确定预算为2800元。

③ 本帖发布之初即已与许老师邮件联系过。他表达了鼓励和支持,但同时表示由于个人兴趣原因仅能提供有限的帮助(目前没有后文)。他建议如果缺少支持,仅制作图片版mdx;不过在我看来,图片版更适用于有阅读价值的词典,有助于读者查词时获取更多信息、触类旁通,而本词典属于索引工具类型,制成图片版和直接在PDF源文件查找单词区别不大,只有文本化才能发挥出电子词典的优势。

如果只提取词头的话,感觉文字版和图片版差别不大

是想全文文本化的~