【竹城的梦】《新蒙汉词典》商务印书馆(1999)[西里尔文] v.2023-12-16

词典制作者:竹城的梦
版本:2023-12-16
来源:http://hkuri.cneas.tohoku.ac.jp/

文件列表:

  1. 【2023-12-16】新蒙汉词典(1999).mdx (正文)
  2. 【2023-1-7】新蒙汉词典(1999).mdd (图片)
  3. 【2023-8-13】新蒙汉词典(1999).1.mdd (字体)
  4. 【2023-2-10】新蒙汉词典(1999).png (logo)
  5. 【2023-12-16】xmh.css
  6. 【2023-2-10】xmh.js

测试环境:

  1. Linux + Goldendict-ng
  2. 安卓13 + DictTango

使用方式:

  1. 图片的mdd可以不下载,其他功能不受影响
  2. 将下载的文件放在同一文件夹下(mdx、mdd、png的文件名可修改,但必须保持一致,css、js的名称不能修改),再将此文件夹放入词典文件目录下
  3. 检索支持传统蒙古文、传统蒙古文拉丁转写、西里尔文
  4. 原书图片默认隐藏,点击页码可展开图片,可点击上一页、下一页
  5. 传统蒙古文的Unicode名称默认隐藏,点击"U"按钮可展开

数据问题及处理:

  1. 修正了原网站上个别typo
  2. 双元音ayi > ai, eyi > ei, oyi > oi, uyi > ui
  3. ~替换成词头,方便全文搜索

Changelog:

2023-12-16:mdx、css

  1. 繁简转换:動 > 动
  2. 纠正个别错误编号:өрөө
  3. SPACE > NNBSP: өөтэй
  4. OCR错误:o > о, ньүугээр > нь үүгээр, будлах > буцлах, _概乐部 > 俱乐部, 臣卜 > 卧, 添 > 舔, 舔犊 > 舐犊, 浅_薄 > 浅薄, Ш > III, малвэ > мал вэ, e > ②, 马它 > 驼, 弓丨> 引, и 爵 > 嚼, 眉、惠 > 恩惠, 卞 > 下, 歹!} > 列, > > 》, гэсрийн тууль)> Гэсрийн тууль》, 优郁 > 忧郁
  5. 删除词头中不稳定的n前面的空格
  6. 蒙古文错别字:ergödel > ergüdel, negüres > negüresü, t'on > ton
  7. χorγol > χorγul
  8. 根据字体调整个别编码:англичууд, программ, ч
  9. 拉丁转写词末:t' > t
  10. 互动态拼写:ldo > ldu, ldö > ldü
  11. Unicode字体设为Times New Roman
  12. чийглэг蒙文删除FVS3
  13. 删除多余的冒号:эцэст
  14. 删除多余的逗号:гэрээ
  15. 删除多余的顿号:булан
  16. 删除多余的!:булан
  17. 删除多余的~: туурга
  18. 修改判断词干词性的函数(去除所有后缀和附加成分)
  19. 删除标点符号前多余的空格
  20. 规范中文省略号、引号
  21. 补充漏掉的词义:бэлчээр, ач

2023-8-13 mdx、css、新蒙汉词典(1999).1.mdd

  1. 处理原数据领属格被识别为-in的错误
  2. _xin > -xin, ' ᠬᠶᠢᠨ' > ' ᠬᠢᠨ'
  3. 规范同形的传统蒙古文:χoido > χoidu
  4. 改正错误的蒙古文:такт, килограмм
  5. 纠正错误的数字格式:мөнх
  6. 规范css中的竖排显示
  7. 罕见汉字转化为Unicode:鱼娄? ,虫+山+鬼
  8. 调整分号、括号前后的空白,调整西里尔文中的全角括号为半角
  9. 汉字后的半角分号改为全角分号
  10. 修复байгаль词条的乱码和漏字
  11. 错别字:霍(子) > 雹,全 体?> 全面体;
  12. 修复代码错误导致的西里尔文存在括号的情况下传统蒙古文到西里尔文映射的错误
  13. 将原数据D转记为d'
  14. _xü > -xü
  15. 字体打包,西里尔文改为Palatino Linotype字体,蒙文采用Menk Qagan Tig

2023-7-3 mdx

  1. 漏字:санаатай
  2. 处理词中_的显示:шийгуа
  3. 识别乱码:「;ф」
  4. 提高键位检索的匹配度

2023-6-17 mdx、css、字体mnglwhiteotf.ttf

  1. 转写改成横排。
  2. 字体转换为Mongolian White。(原字体不能正常显示ngγ_a,多翻比较后更换了字体)
  3. 根据当前字体校正найм、саяхан、ngγ_a、маяг、шиг的传统蒙古文及转写。
  4. 校正传统蒙古文错别字:инженер ес есөн
  5. 补充原数据漏掉的~:бэр
  6. 校正因~未留空格导致的示例中空格的缺乏以及хж、бурханы等错误错误
  7. 校正识别错误的字:「нө;хцөл」「神像画_匠+、」「果子,;存丄、」「螺娜」「朗匙」「огторгуйн」
  8. 词义tab按照词典给出的/1 /2 /3排序
  9. _ki对应的连接符由\u180e改为\u202f,χoito-du > χoitu-du

2023-2-10 mdx、js、css、png

  1. 错别字及其他录入错误:訪绸 > 纺绸,上子# > 上子弹,0苗准 > 瞄准,凭ш > 凭据。
  2. Unicode:然+鸟? > 䳿。
  3. 删除重复的tab。
  4. 校正网站传统蒙古文错误 ᡂ > ᠼ 。
  5. 修改转写的编码,所见即所得,使用Charis SIL字体。
  6. 传统蒙古文的字体改为Mongolian Baiti,优点是处理历史拼写更准确,且能正确处理仅含有i元音的词词末字母g的形式,兼容ayi、ai型拼写,缺点是iOs上不能正确处理MVS,且字体偏小,和汉字混排更加麻烦。清文鉴中存在大量历史拼写,Mongolian Universal White不能正确处理。故为了统一更换了所有词典的字体。两者均不能正确处理仅含有i元音的词词中字母g的形式,需选择控制符FVS3。
  7. 校正g形式的错误:'ᠠᠩᠭᠯᠢᠴᠢᠯᠠᠬᠤ', 'ᠠᠩᠭᠯᠢᠵᠢᠬᠤ', 'ᠠᠩᠭᠯᠢᠴᠤᠳ'。
  8. 解决多tab词条无法翻页的问题。
  9. tab标签配上了不同文字相应的字体。
  10. 保留原网站使用的=(连接动词词尾)、-(NNBSP)。
  11. 导航栏保留义项编号,并按编号给tab排序。

2023-1-8 mdx、js

  1. 校正元音只有i的单词中g的形式。
  2. 修改了js中翻页的问题。
  3. 去除单词末辅音t的fvs。
  4. GoldenDict

    DictTango


    下载:

11 个赞

小语种研究的人少,可能楼主得到的反馈,鼓励,关注也就少,希望楼主能合理看待这种孤独,愿研究顺利!

4 个赞

又是一部力作!感谢制作与发布。

这部辞典的例词非常多,如果能进一步提取成词条会很丰富。
离线版比线上版更方便更好用,在这个什么都往云端丢、往云端查的时代,在自己机器上能查到,不假外求多棒啊。真感谢。

唯一小建议是关于上下翻页。JS档中的bres://后面的辞典编号,应该是在每个使用者自己的电脑上生成的,所以这儿写的59f…是仅在您的电脑中才能用的号,其他人要改成自己电脑中,该部辞典生成的号才能用。这样写定编号的话,其他人会无法翻页。

我在JS档中改成自己的号就能用了,但不知该怎么改才能拿辞典给别人,先向楼主提一下喔。

1 个赞

楼上指的是这一段代码:

function nextPG() {
  var imgObj = document.getElementById("xmh-bkpg");
  var curr = Number(imgObj.getAttribute('src').replace('bres://59f3cc1e71b587b86e6f60b8974efb1e/', '').replace('/', '').replace('.png', ''));
  var nxt = curr + 1;
  if (imgObj.getAttribute('src').includes("bres")) {
    imgObj.setAttribute("src", "bres://59f3cc1e71b587b86e6f60b8974efb1e/" + nxt.toString() + ".png");
  } else {
    imgObj.setAttribute("src", "/" + nxt.toString() + ".png");
  }
}

那串代码 59f... 可以理解为词典的 ID,每本词典在不同的电脑上的 ID 都不同的,并且此 ID 的形式在不同的客户端上也是不同的,很难统一。楼主想要做这种翻页,是很好的想法,但这是一个已知的(MDX 或者其客户端的)缺陷,很难有统一的,很好的解决办法。

也许针对楼主的代码而言可以改为如下代码,可能就能在不同设备,不同客户端运行了,未经测试,也许能给楼主带来一点启发。

function nextPG_updated() {
  var imgObj = document.getElementById("xmh-bkpg");
  var currSrc = imgObj.getAttribute('src')
  var currSrcSplit = currSrc.split("/")
  currSrcSplit[currSrcSplit.length - 1] = parseInt(currSrcSplit[currSrcSplit.length - 1].split(".")[0]) + 1 + '.png'

  imgObj.setAttribute("src", currSrcSplit.join('/'))
}
3 个赞

谢谢解答!学到了。我对javascript不熟,都是边谷歌边写的,本来想偷一下懒的,只是简单地replace了一下

我用了您提供的代码,GoldenDict和DictTango都能正常翻页

1 个赞

谢谢提出啊,我用了hua给的代码,已经可以正常翻页了。原链接里已经更新了,我也顺便把元音只有i的单词中音节末辅音g的写法改过来了

1 个赞

非常完美!感谢hua大与楼主!
您的作品比纸质辞典更好用,查起来更快速!
无须连网,反应速度快,绝佳。
祝福诸事顺利,天冷多保重。

真是细心,必须给赞!