格蕾特
December 7, 2024, 11:35am
1
我国地名翻译归口于民政部(并非新华社),翻译规范应参考民政部编写的系列国标《外语地名汉字译写导则》、《世界地名译名词典》(2017年版)。网上可找到的辞书(例如周定国主编《世界地名翻译大辞典》,2008年版)所收条目有不少和民政部规范相冲突,根据民政部数据制作电子版势在必行。但《世界地名译名词典》仅有扫描版,体量庞大(3000多页,30多万条),字母附加符号繁多,是否有时长合理的mdx制作方案?例如仿照《王力古漢語字典》 切图版根据条目或页码切片,预估任务难度几何?
1 Like
格蕾特
December 7, 2024, 11:39am
2
补充:中国地名委员会是中华人民共和国地名的国务院议事协调机构。1977年成立,1993年撤销。1993年4月19日,在国务院非常设机构的清理调整中(《关于国务院议事协调机构和临时机构设置的通知》(国发〔1993〕27号)),中国地名委员会被撤销;7月9日,国务院办公厅发出《关于部分已撤销的国务院非常设机构其原工作移交有关部门承担问题的通知》,确定“中国地名委员会撤销后,工作由民政部承担 ”。(来源:维基百科 )
1 Like
有高清扫描档,可以用 FineReader 识别校对后导出成 HTML。如果对识别率不满意,可以考虑全能扫描王、夸克之类的付费 APP。识别率可以参考这篇文章:
单开一贴,总结下常见 OCR 引擎的识别结果。
省流不看版:
通用字文档识别率: 合合 > 有道 = 谷歌 AI > 阿里 = 百度 > 火山
生僻字文档识别率: 合合 = 有道 > 火山 > 谷歌 AI > 阿里 = 百度
识别率最高:合合 0.050 元/页
性价比最高:有道 0.007 元/页
样本一:汉语成语源流大辞典
测试图片:1468_0.png.zip (3.2 M…
shaoshi
December 7, 2024, 12:06pm
4
安娜馆有,不知道是否够清晰。
世界地名翻译词典
https://annas-archive.li/search?q=++世界地名译名词典
假如够清晰,有足够的耐心的话,当然可以完全文字化。
切词的难度会很大。新手除非电脑技术很强,就别想了。
做整页图像版也许可行。
England | 英格兰
把全书ocr,每页第一个词条抽出来。
把新华社《世界地名翻译词典》(mdx)的词条抽出来,把上述每页第一个词条的页码填进去。
其他词条的页码用程式补上。
格蕾特
December 7, 2024, 1:11pm
6
试试下面的链接,这个是全能扫描王的免费版,不用考虑文本错位问题,只看文本识别率:
格蕾特
December 7, 2024, 1:23pm
8
实际操作起来可能有些问题。
一来,《世界地名翻译大辞典》收词17万7000余条,《世界地名译名词典》收词30万余条,可能存在很多前者未收录的条目。
二来,两部辞书的排序存在差异,周定国编《世界地名翻译大辞典》(这本其实不是新华社编的)的排序为不考虑空格,民政部编《世界地名译名词典》的排序为先空格后字母,例如 A Coruña,前者排在 Acornhoek 和 Acos 之间,已经到第6页,后者排在 Aa 之前,在字母A首页,如果采取内插值的做法,后期仍须进行不少校对。
格蕾特
December 7, 2024, 1:36pm
9
这效果意外地好呀,字母几乎全对,只有 A‘ālī an Nīl,Mudīrīyat 识别成 A'āli an Nil.Mudiriyat 等少数附加符号问题。但是价格实在太高了。
1 Like
midouzi
December 7, 2024, 6:36pm
10
民政部的中国·国家地名信息库 不知道是根据哪版编制的。
1 Like
格蕾特
December 7, 2024, 7:37pm
11
民政部的数据库应该是最新版,但网页刷新一直无反应,从来就没成功查到过数据,页面上提交问题反馈的选项也用不了。不过 新华社历史资料库 (使用说明 )可以查,先前试过一些《世界地名翻译大辞典》和《世界地名译名词典》相冲突的词条,都是民政部的版本。
1 Like
shaoshi
December 8, 2024, 1:23am
13
大概在外国无法登录?
我也无法打开你发的链接。Cannot find site.
shuitu
December 8, 2024, 1:33am
14
格蕾特
December 8, 2024, 8:45am
19
应该是最新版,修正了《世界地名译名词典》的若干错误。例如,Bourg-en-Bresse,《世界地名翻译大辞典》作“布雷斯地区城堡”,《世界地名译名词典》作“布雷斯地区”,新华社数据库和民政部信息库都修正为“布雷斯地区布尔格”。
但是 中国·国家地名信息库 我这边访问很慢,感兴趣的话可以进新华社数据库查找“国际译名—地名译名”下的新增译名(搜索“新增”即可),可按时间正序或倒序排列,再回民政部信息库查找比对。
1 Like
格蕾特
December 10, 2024, 10:01am
20
简单总结现有方案:
方案一、分页图片。提取每页首条和末条(位于页面顶部),结合现有《世界人名翻译大辞典》文字版填充数据。
补充:先前提到两部辞书排序方式不一(见下),实际上并非问题。《世界地名翻译大辞典》已有文字版,无须再考虑编排顺序,所以只须调整至同民政部编《世界地名译名词典》的顺序保持一致即可。
但结合《世界地名翻译大辞典》确实是好办法,可以弥补如下不足:返回分页图片只能就前几个字母进行匹配,无法实现输入 Hague 返回 The Hague 的效果。如果结合《世界地名翻译大辞典》,可以输入 Hague 先行匹配,返回 Hague、Hague, C. de la、The Hague 等已有结果,用户再查找 The Hague 就能准确定位至《世界地名译名词典》中的页面。
方案二、纯文本。利用识别准确的OCR技术提取纯文本。参见
方案三、纯文本+分页图片/分条图片。《世界地名译名词典》含3000多页,30多万条,字母附加符号繁多,人工核对难免有错漏之处(何况《世界地名译名词典》本身也有若干明显的字形相近错误),可以在方案二基础上结合分页或分条图片作为双保险。这里把先前切分好的分条图片贴上,供有兴趣的坛友使用。
The simple, quick and secure way to send your files around the world without an account. Share your files, photos, and videos today for free.
方案四、抓取相关网站数据。但新华社资料库没有附加符号,民政部信息库数据不全(例如 München 就查不到)。