征求民政部《世界地名译名词典》mdx制作方案

格蕾特 · 2024 年12 月 7 日 11:35

我国地名翻译归口于民政部（并非新华社），翻译规范应参考民政部编写的系列国标《外语地名汉字译写导则》、《世界地名译名词典》（2017年版）。网上可找到的辞书（例如周定国主编《世界地名翻译大辞典》，2008年版）所收条目有不少和民政部规范相冲突，根据民政部数据制作电子版势在必行。但《世界地名译名词典》仅有扫描版，体量庞大（3000多页，30多万条），字母附加符号繁多，是否有时长合理的mdx制作方案？例如仿照《王力古漢語字典》切图版根据条目或页码切片，预估任务难度几何？

格蕾特 · 2024 年12 月 7 日 11:39

补充：中国地名委员会是中华人民共和国地名的国务院议事协调机构。1977年成立，1993年撤销。1993年4月19日，在国务院非常设机构的清理调整中（《关于国务院议事协调机构和临时机构设置的通知》（国发〔1993〕27号）），中国地名委员会被撤销；7月9日，国务院办公厅发出《关于部分已撤销的国务院非常设机构其原工作移交有关部门承担问题的通知》，确定“中国地名委员会撤销后，工作由民政部承担”。（来源：维基百科）

last_idol · 2024 年12 月 7 日 11:59

有高清扫描档，可以用 FineReader 识别校对后导出成 HTML。如果对识别率不满意，可以考虑全能扫描王、夸克之类的付费 APP。识别率可以参考这篇文章：

shaoshi · 2024 年12 月 7 日 12:06

安娜馆有，不知道是否够清晰。

世界地名翻译词典
https://annas-archive.li/search?q=++世界地名译名词典

假如够清晰，有足够的耐心的话，当然可以完全文字化。

切词的难度会很大。新手除非电脑技术很强，就别想了。

做整页图像版也许可行。

England | 英格兰

把全书ocr，每页第一个词条抽出来。

把新华社《世界地名翻译词典》(mdx)的词条抽出来，把上述每页第一个词条的页码填进去。

其他词条的页码用程式补上。

格蕾特 · 2024 年12 月 7 日 13:00

先期研究过了，识别率不理想。附例图供试验

格蕾特 · 2024 年12 月 7 日 13:11

切词部分先期已经完成，共得到3236页，32万4千余条（含若干空白条目），切词条目如有两行已经合并，准确率在95%以上，见下图：

问题在于OCR效果不佳，切词之后很难制作索引。

last_idol · 2024 年12 月 7 日 13:11

试试下面的链接，这个是全能扫描王的免费版，不用考虑文本错位问题，只看文本识别率：

格蕾特 · 2024 年12 月 7 日 13:23

实际操作起来可能有些问题。
一来，《世界地名翻译大辞典》收词17万7000余条，《世界地名译名词典》收词30万余条，可能存在很多前者未收录的条目。
二来，两部辞书的排序存在差异，周定国编《世界地名翻译大辞典》（这本其实不是新华社编的）的排序为不考虑空格，民政部编《世界地名译名词典》的排序为先空格后字母，例如 A Coruña，前者排在 Acornhoek 和 Acos 之间，已经到第6页，后者排在 Aa 之前，在字母A首页，如果采取内插值的做法，后期仍须进行不少校对。

格蕾特 · 2024 年12 月 7 日 13:36

这效果意外地好呀，字母几乎全对，只有 A‘ālī an Nīl,Mudīrīyat 识别成 A＇āli an Nil.Mudiriyat 等少数附加符号问题。但是价格实在太高了。

midouzi · 2024 年12 月 7 日 18:36

民政部的中国·国家地名信息库不知道是根据哪版编制的。

格蕾特 · 2024 年12 月 7 日 19:37

民政部的数据库应该是最新版，但网页刷新一直无反应，从来就没成功查到过数据，页面上提交问题反馈的选项也用不了。不过新华社历史资料库（使用说明）可以查，先前试过一些《世界地名翻译大辞典》和《世界地名译名词典》相冲突的词条，都是民政部的版本。

midouzi · 2024 年12 月 8 日 01:17

这个没遇到过，难道是网络问题？

shaoshi · 2024 年12 月 8 日 01:23

大概在外国无法登录？

我也无法打开你发的链接。Cannot find site.

shuitu · 2024 年12 月 8 日 01:33

中国·国家地名信息库：https://dmfw.mca.gov.cn/

shuitu · 2024 年12 月 8 日 01:36

好像用不了。这网站建得……

last_idol · 2024 年12 月 8 日 01:53

应该只能国内访问，我这边访问很快，查询也没问题。

amob · 2024 年12 月 8 日 01:55

这个网站看起来挺好爬的

格蕾特 · 2024 年12 月 8 日 08:41

还真是，盲点发现了。

格蕾特 · 2024 年12 月 8 日 08:45

应该是最新版，修正了《世界地名译名词典》的若干错误。例如，Bourg-en-Bresse，《世界地名翻译大辞典》作“布雷斯地区城堡”，《世界地名译名词典》作“布雷斯地区”，新华社数据库和民政部信息库都修正为“布雷斯地区布尔格”。
但是中国·国家地名信息库我这边访问很慢，感兴趣的话可以进新华社数据库查找“国际译名—地名译名”下的新增译名（搜索“新增”即可），可按时间正序或倒序排列，再回民政部信息库查找比对。

格蕾特 · 2024 年12 月 10 日 10:01

简单总结现有方案：
方案一、分页图片。提取每页首条和末条（位于页面顶部），结合现有《世界人名翻译大辞典》文字版填充数据。

补充：先前提到两部辞书排序方式不一（见下），实际上并非问题。《世界地名翻译大辞典》已有文字版，无须再考虑编排顺序，所以只须调整至同民政部编《世界地名译名词典》的顺序保持一致即可。

但结合《世界地名翻译大辞典》确实是好办法，可以弥补如下不足：返回分页图片只能就前几个字母进行匹配，无法实现输入 Hague 返回 The Hague 的效果。如果结合《世界地名翻译大辞典》，可以输入 Hague 先行匹配，返回 Hague、Hague, C. de la、The Hague 等已有结果，用户再查找 The Hague 就能准确定位至《世界地名译名词典》中的页面。

方案二、纯文本。利用识别准确的OCR技术提取纯文本。参见

方案三、纯文本＋分页图片／分条图片。《世界地名译名词典》含3000多页，30多万条，字母附加符号繁多，人工核对难免有错漏之处（何况《世界地名译名词典》本身也有若干明显的字形相近错误），可以在方案二基础上结合分页或分条图片作为双保险。这里把先前切分好的分条图片贴上，供有兴趣的坛友使用。

方案四、抓取相关网站数据。但新华社资料库没有附加符号，民政部信息库数据不全（例如 München 就查不到）。