【竹城的梦】《新蒙汉词典》商务印书馆(1999)[西里尔文] v.240622

词典制作者:竹城的梦
版本:2024-6-22
来源:http://hkuri.cneas.tohoku.ac.jp/

文件列表:

  1. 【2024-6-22】新蒙汉词典(1999).mdx (正文)
  2. 【2023-1-7】新蒙汉词典(1999).mdd (图片)
  3. 【2023-8-13】新蒙汉词典(1999).1.mdd (字体)
  4. 【2023-2-10】新蒙汉词典(1999).png (logo)
  5. 【2024-6-22】xmh.css
  6. 【2023-2-10】xmh.js

测试环境:

  1. Linux + Goldendict-ng,安卓13 + DictTango

使用方式:

  1. 图片的mdd可以不下载,其他功能不受影响
  2. 将下载的文件放在同一文件夹下(mdx、mdd、png的文件名可修改,但必须保持一致,css、js的名称不能修改),再将此文件夹放入词典文件目录下
  3. 检索支持传统蒙古文、传统蒙古文拉丁转写、西里尔文
  4. 原书图片默认隐藏,点击页码可展开图片,可点击上一页、下一页
  5. 传统蒙古文的Unicode名称默认隐藏,点击"U"按钮可展开

数据问题及处理:

  1. 修正了原网站上个别typo
  2. 双元音ayi > ai, eyi > ei, oyi > oi, uyi > ui
  3. ~替换成词头,方便全文搜索

Changelog:

2024-6-22:mdx、css

  1. 汉字OCR错误:{分 > 份,;)匕 > 北,规世音 > 观世音,毋台 > 跳,4卜 > 仆,拖玲 > 拖垮,虫且 > 蛆,大й :量 > 大批量,罗樓 > 罗嗦,贝占 > 贴,只广 > 见识广,薦 > 藨,萆 > 草,化误 > 讹误,中冒 > 帽,菩夢 > 菩萨,赞金 > 烫金,够雉 > 鸲雉,崩演 > 崩溃,傘 > 率,榇 > 棕,羊栖叶 > 羊柄叶,灰蟲晰 > 灰螽蜥,齣 > 鼩,鹋鹛/鹧 > 䴙䴘,哺 > 喃,叙 > 的,才艮 > 很,?肖 > 消,(由政)日截 > (邮政)日戳,月艮 > 服,艮口 > 即,目艮 > 眼,艮多孚ь > 很多乳,譯艮多 > 很多,艮р > 即,〗艮 > 眼,艮额 > 限额,遣路 > 道路,肩、> 息,样в 巴 > 那样吧,错 > 蜡,会氏 > 纸,书 шч 吾言 > 书面语言,力、理 > 办理,力、事员 > 办事员,力、称 > 小称, р 令 > 嘌呤, йтй > ,拉下的,剥 ии > 剥削,п 向 > 响,峰卿 > 蟑螂,副ш > 副票,效桌 > 效果,贪婆 > 贪婪,疙擦 > 疙瘩,发千 > 发干,岩笞 > 岩苔,油诟 > 油垢,肌动己 > 肌动描记,成№ > 成肌,锸 > 锰,日才 > 时,普通聘 > 普通䴓,角餐 > 角鲨,蔡黎 > 蒺黎,狗餐 > 狗鲨,秀发 > 秃发,僬 > 憔,牛接 > 牛犊,奪的 > 等的,奪子 > 凳子,奪 > 茸,狭溢 > 狭隘,鹋鹧 > 䴙䴘,華 > 苇,鵖 > 𱉼,轡軟 > 辔靫,恙 > 羔,脒 > 版,癒 > 磕,才申经错舌 > 神经错乱,聲 > 鹭,戟 > 绒,鞴 > 韂,缓 > 绶,蟲斯 > 螽斯,双 > 放,一践一魄 > 一跩一跩,胨 > 陈,叙 > 器,鲚 > 蛴,域 > 绒,歐 > 𫪘,軟 > 𫪘,莰 > 茓,口ч > 叫
  2. 统一为简体:締 > 缔,檻 > 槛,鮇 > 𱇛
  3. 西里尔字母OCR错误:зэрэгдэх > зэрэгцэх, пх > ш, дэгдээх的使动态 > дэгдэх的使动态, бадарх > бадрах,шугэм > шугам, юу4 > юу ч, унэ > үнэ, гуйлгээ > гүйлгээ, иий > ийн, ии > ий, 卡拉 ок > 卡拉OK, Aдьяа > Адьяа, Cумьяа > Сумьяа, Aнгараг > Ангараг,юс > их, баримтлахүзэл > баримтлах үзэл
  4. 符号OCR错误:v > ;,卍 > 卐,... > …, ; > ,, ;: > ;,,,> ,七一九 > 七——九
  5. 集中处理记为 〈高 的漏字
  6. 漏字:闹特 > 闹特殊;, _云 > 密云, 脾 > J牌, зарц > боол зарц,,力 > 能力,毁灭 > 毁灭性打击;, та хараагүй > та хараагүй ~?,光明,路 > 光明之路,明,的房间 > 明亮的房间,хар > ~ хар,面庞黑 > 面庞黝黑,日行市 > 当日行市,黑纹 > 黑纹𱉼;,指 > 指挥官:,透明 > 透明度:,套购票 > 套购票据;,салбар > салбар ~,Aтлантын > Атлантын,~гийн > ~гийн саа 肌麻痹,т № > 把洗了的,ш 谈这个,谈谈个 > 谈谈这个,谈谈那个,ш 房 > 毡房,ш 民 > 殖民,ш 网丝 > 胞网丝,ш 笔 > 粉笔,ш 矿 > 锰矿,ш 业 > 商业,ш 生素 > 维生素,马ш :带 > 马肚带,ш 紧 > 拉紧,ш > 〈动〉
  7. 多字:在将来一 > 在将来, (温顺)?
  8. 漏符号:,◊:
  9. 删除多余的符号:、;
  10. 词义部分使用中文引号
  11. 替换~时保留词头大小写
  12. 拉丁转写错漏:irtincU > yirtincU
  13. 传统蒙古文错误:bud'd'χa > bud'd'ha,词首t' > t
  14. 蒙古文编码: ǰo' > ǰo
  15. 处理~替换的错误和重复
  16. 删除ын、(ны)、наас、аараа、ынхан、“、的、;前以及”、同后多余的空格
  17. 删除中文环境中多余的空格
  18. 增加~前后应有的空格,删除不应有的空格
  19. ①前添加空格,其他编号前删除空格
  20. 纠正部分被识别为一级编号的二级编号
  21. 添加副词条和词义中缺失的空格
  22. 根据正字法加上GEN+нь结构中GEN的г,使用红色显示,点击可查看原文
  23. 处理页码错误:бадраах
  24. 校对原书错字,使用红色显示,点击可查看原文: нийтлэхэгүй > нийтлэхгүй,回虫 > 蛔虫,芥茉 > 芥末,马奶洒 > 马奶酒,螽蜥 > 螽斯,сахлга > сахлаг

2024-1-23:mdx、css

  1. 漏子:称 > 小称
  2. OCR错误:囁 > 嘣, (比高 >(比赛之), 口口 > 叩
  3. 删除词义中西里尔文和中文之间的空格,《空格 > 《
  4. 校对原书错字,用红色显示,鼠标悬停(PC端)或点击(手机端)则用黑色显示原文:дүгнүүлэх > дүгнүлэх
  5. 蒙古文:шиг, -ldögči > -ldügči
  6. 主词条:зургаадугаар > зургадугаар

2023-12-16:mdx、css

  1. 繁简转换:動 > 动
  2. 纠正个别错误编号:өрөө
  3. SPACE > NNBSP: өөтэй
  4. OCR错误:o > о, ньүугээр > нь үүгээр, будлах > буцлах, _概乐部 > 俱乐部, 臣卜 > 卧, 添 > 舔, 舔犊 > 舐犊, 浅_薄 > 浅薄, Ш > III, малвэ > мал вэ, e > ②, 马它 > 驼, 弓丨> 引, и 爵 > 嚼, 眉、惠 > 恩惠, 卞 > 下, 歹!} > 列, > > 》, гэсрийн тууль)> Гэсрийн тууль》, 优郁 > 忧郁
  5. 删除词头中不稳定的n前面的空格
  6. 蒙古文错别字:ergödel > ergüdel, negüres > negüresü, t'on > ton
  7. χorγol > χorγul
  8. 根据字体调整个别编码:англичууд, программ, ч
  9. 拉丁转写词末:t' > t
  10. 互动态拼写:ldo > ldu, ldö > ldü
  11. Unicode字体设为Times New Roman
  12. чийглэг蒙文删除FVS3
  13. 删除多余的冒号:эцэст
  14. 删除多余的逗号:гэрээ
  15. 删除多余的顿号:булан
  16. 删除多余的!:булан
  17. 删除多余的~: туурга
  18. 修改判断词干词性的函数(去除所有后缀和附加成分)
  19. 删除标点符号前多余的空格
  20. 规范中文省略号、引号
  21. 补充漏掉的词义:бэлчээр, ач

2023-8-13 mdx、css、新蒙汉词典(1999).1.mdd

  1. 处理原数据领属格被识别为-in的错误
  2. _xin > -xin, ' ᠬᠶᠢᠨ' > ' ᠬᠢᠨ'
  3. 规范同形的传统蒙古文:χoido > χoidu
  4. 改正错误的蒙古文:такт, килограмм
  5. 纠正错误的数字格式:мөнх
  6. 规范css中的竖排显示
  7. 罕见汉字转化为Unicode:鱼娄? ,虫+山+鬼
  8. 调整分号、括号前后的空白,调整西里尔文中的全角括号为半角
  9. 汉字后的半角分号改为全角分号
  10. 修复байгаль词条的乱码和漏字
  11. 错别字:霍(子) > 雹,全 体?> 全面体;
  12. 修复代码错误导致的西里尔文存在括号的情况下传统蒙古文到西里尔文映射的错误
  13. 将原数据D转记为d'
  14. _xü > -xü
  15. 字体打包,西里尔文改为Palatino Linotype字体,蒙文采用Menk Qagan Tig

2023-7-3 mdx

  1. 漏字:санаатай
  2. 处理词中_的显示:шийгуа
  3. 识别乱码:「;ф」
  4. 提高键位检索的匹配度

2023-6-17 mdx、css、字体mnglwhiteotf.ttf

  1. 转写改成横排。
  2. 字体转换为Mongolian White。(原字体不能正常显示ngγ_a,多翻比较后更换了字体)
  3. 根据当前字体校正найм、саяхан、ngγ_a、маяг、шиг的传统蒙古文及转写。
  4. 校正传统蒙古文错别字:инженер ес есөн
  5. 补充原数据漏掉的~:бэр
  6. 校正因~未留空格导致的示例中空格的缺乏以及хж、бурханы等错误错误
  7. 校正识别错误的字:「нө;хцөл」「神像画_匠+、」「果子,;存丄、」「螺娜」「朗匙」「огторгуйн」
  8. 词义tab按照词典给出的/1 /2 /3排序
  9. _ki对应的连接符由\u180e改为\u202f,χoito-du > χoitu-du

2023-2-10 mdx、js、css、png

  1. 错别字及其他录入错误:訪绸 > 纺绸,上子# > 上子弹,0苗准 > 瞄准,凭ш > 凭据。
  2. Unicode:然+鸟? > 䳿。
  3. 删除重复的tab。
  4. 校正网站传统蒙古文错误 ᡂ > ᠼ 。
  5. 修改转写的编码,所见即所得,使用Charis SIL字体。
  6. 传统蒙古文的字体改为Mongolian Baiti,优点是处理历史拼写更准确,且能正确处理仅含有i元音的词词末字母g的形式,兼容ayi、ai型拼写,缺点是iOs上不能正确处理MVS,且字体偏小,和汉字混排更加麻烦。清文鉴中存在大量历史拼写,Mongolian Universal White不能正确处理。故为了统一更换了所有词典的字体。两者均不能正确处理仅含有i元音的词词中字母g的形式,需选择控制符FVS3。
  7. 校正g形式的错误:'ᠠᠩᠭᠯᠢᠴᠢᠯᠠᠬᠤ', 'ᠠᠩᠭᠯᠢᠵᠢᠬᠤ', 'ᠠᠩᠭᠯᠢᠴᠤᠳ'。
  8. 解决多tab词条无法翻页的问题。
  9. tab标签配上了不同文字相应的字体。
  10. 保留原网站使用的=(连接动词词尾)、-(NNBSP)。
  11. 导航栏保留义项编号,并按编号给tab排序。

2023-1-8 mdx、js

  1. 校正元音只有i的单词中g的形式。
  2. 修改了js中翻页的问题。
  3. 去除单词末辅音t的fvs。
  4. GoldenDict

    DictTango


    下载:

12 Likes

小语种研究的人少,可能楼主得到的反馈,鼓励,关注也就少,希望楼主能合理看待这种孤独,愿研究顺利!

4 Likes

又是一部力作!感谢制作与发布。

这部辞典的例词非常多,如果能进一步提取成词条会很丰富。
离线版比线上版更方便更好用,在这个什么都往云端丢、往云端查的时代,在自己机器上能查到,不假外求多棒啊。真感谢。

唯一小建议是关于上下翻页。JS档中的bres://后面的辞典编号,应该是在每个使用者自己的电脑上生成的,所以这儿写的59f…是仅在您的电脑中才能用的号,其他人要改成自己电脑中,该部辞典生成的号才能用。这样写定编号的话,其他人会无法翻页。

我在JS档中改成自己的号就能用了,但不知该怎么改才能拿辞典给别人,先向楼主提一下喔。

1 Like

楼上指的是这一段代码:

function nextPG() {
  var imgObj = document.getElementById("xmh-bkpg");
  var curr = Number(imgObj.getAttribute('src').replace('bres://59f3cc1e71b587b86e6f60b8974efb1e/', '').replace('/', '').replace('.png', ''));
  var nxt = curr + 1;
  if (imgObj.getAttribute('src').includes("bres")) {
    imgObj.setAttribute("src", "bres://59f3cc1e71b587b86e6f60b8974efb1e/" + nxt.toString() + ".png");
  } else {
    imgObj.setAttribute("src", "/" + nxt.toString() + ".png");
  }
}

那串代码 59f... 可以理解为词典的 ID,每本词典在不同的电脑上的 ID 都不同的,并且此 ID 的形式在不同的客户端上也是不同的,很难统一。楼主想要做这种翻页,是很好的想法,但这是一个已知的(MDX 或者其客户端的)缺陷,很难有统一的,很好的解决办法。

也许针对楼主的代码而言可以改为如下代码,可能就能在不同设备,不同客户端运行了,未经测试,也许能给楼主带来一点启发。

function nextPG_updated() {
  var imgObj = document.getElementById("xmh-bkpg");
  var currSrc = imgObj.getAttribute('src')
  var currSrcSplit = currSrc.split("/")
  currSrcSplit[currSrcSplit.length - 1] = parseInt(currSrcSplit[currSrcSplit.length - 1].split(".")[0]) + 1 + '.png'

  imgObj.setAttribute("src", currSrcSplit.join('/'))
}
3 Likes

谢谢解答!学到了。我对javascript不熟,都是边谷歌边写的,本来想偷一下懒的,只是简单地replace了一下

我用了您提供的代码,GoldenDict和DictTango都能正常翻页

1 Like

谢谢提出啊,我用了hua给的代码,已经可以正常翻页了。原链接里已经更新了,我也顺便把元音只有i的单词中音节末辅音g的写法改过来了

1 Like

非常完美!感谢hua大与楼主!
您的作品比纸质辞典更好用,查起来更快速!
无须连网,反应速度快,绝佳。
祝福诸事顺利,天冷多保重。

真是细心,必须给赞!