MDX词典制作工具研究[长期施工]

计划分三期完成:

  • 探讨制作词典时碰到的实际问题:

    • 各路制作工具的优劣对比,特别是writemdict.py的发展历史,及面对闭源mdx的尴尬处境
    • 各平台客户端goldendict, mdict, 欧路,对mdx的兼容性问题和差异
    • 讨论实际解决方案
  • 探讨周边工具:

    • 在线查词
    • 数据标注,统一样式
    • 实时编辑修订的可能性
    • 可订制的导入导出,如导出词头,导入anki
  • 新世代的诞生,参与推动下世代词典制作工具的诞生进程。

3 Likes

如果不考虑出新格式的话,这些问题就只能对症(各异的 mdx)下药。。。个人感觉还是数据差异性太大,导致软件的处理差异。

这是一个浩大的工程,我早已立项,无奈时间和水平都不够。这个项目我已搁置了。这个能解决

这个统一样式就需要人工的力量了,需要熟悉 CSS 的人来洗排版。

支持集思广益讨论。

关于统一样式这一点,我曾经也想把常用字典的外观统一起来(当然改css是上手难度低花费时间长的做法),随着对词典认识的加深,现在已经放弃这个强迫症了。原因:
一是各家大词典的编撰理念不同,词条内容独具特色,如牛津高阶的Which Word? / word finder / Homophones / See also / Vocabulary Building / More Like This / British/American等等等等栏目,导致其HTML标签的数量繁杂差异很大,很多标签是独有的。
二是样式多样化不是坏事。用多了之后,查阅词条一眼即可辨别是来自于哪一部词典,这个词典的特色长处是什么、这些地方需要特别多加关注。所以说,有区分度后查阅效率可能会更高。
当然,原始网站的css排版往往很难看,这时候选择你看得顺眼的网友改版css、在其基础上做微调是最省时间的。希望能把自己的时间用在刀刃上。

最后转引之前的回帖供参考。


并不是说不需要改进mdx不透明的打包方式,也就是说可以设计一种新的开源打包方式:
1、继续采用Web技术(HTML+CSS+JavaScript),最好跟现有mdx打包前的源文本一样,把规范表述清楚全面。因为各大词典上线网页是这个结构,app数据底层也是,这大大方便了电子词典的爬虫转换制作,而且也降低了一般人修改完善词典的门槛。
2、提供新的、开源方便的打包解包工具。
3、新的打包格式需要goldendict等软件支持。
4、要能解决mdx现有的痛点以吸引用户。比如,可以方便导出某词条内容(源文本及相关js & css)、方便修改某词条内容的编辑功能(错别字)、方便手动增加词条间跳转功能(也是一种编辑),等等。