一键制作图片词典 MdxSourceBuilder

明白啦,谢谢您!

vim师,tsv格式的索引应该是最为“自然”的索引,也就是tab分隔的数据。 如果能直接提供这种格式的索引可能最为便捷,而且跟正则处理词典文件的制作方式也能完美衔接。

目前PageKeywordStyle的“2”已经支持tsv这种格式的,直接使用,不必升级。

PageKeywordStyle的“2”其实同时兼容4个及4个以上空格的分隔符(因为很多人更喜欢空格而不是tab,但空格又容易出错,所以兼容了4个及4个以上的空格)。

image

真实词典案例:

國語日報辭典 - 使用MdxSourceBuilder重制导航
https://www.pdawiki.com/forum/thread-41323-1-1.html
(出处: 掌上百科 - PDAWIKI)

在这个案例中,还增加了一个功能:可以添加现成的mdx源文件。其妙用:特别适合于类似案例这种港澳台等表达习惯不同的情形,要添加额外@@@LINK到已有词条的内容。

Update: 鉴于这种情形应该还是挺常见的,已更新至程序,并添加了相关案例。

Update:增加了防错机制,对词条、info等文件的编码都不做要求,无论gbk或utf-8,还是bomb或nobomb,系统均会自动处理。

1 Like

新拟声拟态词词典.zip (29.7 MB)

Vim大神,我尝试制作了一下这本辞典,发现不能生成mdx呢,也没有错误提示。

我把所有文件上传这里您有时间的时候能帮忙看一下哪个地方出问题了吗?(完全新手,可能出现非常低级的问题,请大神不吝赐教,谢谢!)

多次麻烦,非常感谢!

帮你调整好了,你自己用程序输出。

主要问题:

  1. 页码:4位,不足用0补全
  2. 图片:将书分成几个部分,每个图片的编号最好与真实的页码一致,这样使用时才舒服;每个部分的图片类型要一致,要么都是jpg,要么都是png。
  3. 每个部分最好用不同的前缀。
  4. 词条:每个图片都要有对应的页码;页码 + 关键词的格式要满足相关格式要求。

新日汉拟声拟态词词典.zip (29.9 MB)

1 Like

今天玩了个100KB的TXT源文件,就说内存不足。继承了Vim难处理大文件的通病? 还要跟处理大词库的mdict-utils搭配,行得通吗?作者有必要处理这问题。

这是你的问题,我用vim处理几个G的文本都没问题,轻轻松松。电脑还是6年前买的。

甚至我用NAS的虚拟机(性能超级差的电脑)都能轻松跑。

我是说把TXT转为MDX,只能拆开几部分处理,一次性不成功。好在拆开后转成了。然后合并。

最后转mdx的步骤,mdxsourcebuilder仅仅是调用mdict-utils,与直接使用mdict-utils没有任何区别。

我转过接近1G的源文件,一点问题都没有,速度很快。具体问题具体分析吧。你的问题由于没有提供细节,我们也无从看出问题在哪里。

你可以试着直接用mdict-utils编译,看看是否可以。

是"火星词典.Body.Part2.txt"的压缩词条格式,要用你的工具先转成符合mdict的样式,不能直接用mdict-utils编译。这种压缩词条格式,你的工具转成标准词条格式,然后再编译。

你的工具还是有优点,不能求全责备。这种压缩词条格式,还只发现你的工具能处理。

纯属自娱自乐啊。

Vim的缺点并不在于难以处理大文件,恰恰相反,它可以处理几个G的普通文本,日常使用肯定足够了。但它确实难以处理单行很长很长的文本,比如整个文件就一行。

当然,我的编程水平非常有限,这个是我的第一个程序,一切都简单粗暴,比如把整部词典都塞到一个dict中,我也不知道有什么更好的方法,但够普通使用就是了,毕竟图片词典都不会太大。这些肯定有很多可以改进的地方。

谢谢您的指导!
感谢!

把玩gVim,乐在其中。

感谢大神!

已经用mdx制作工具制作完成了!
非常感谢!

跑程序的时侯跟上面一位朋友一样,vim本身不能生成mdx,可能跟python的版本有关。我我用的是官网的最新版。

另外还有个问题想请教下,词头与页码对应时,有没有比较便利的方式来分配页码呢?我基本上都是手动输入的。大神有比较顺手的批量修改页码(或者给图片命名)的软件可以推荐下吗?

再次感谢!

关于版本匹配:全部采用32位或全部采用64位;当前vim最新版(你确定确实是最新版?)对应的python版本是3.8(使用:py3 print(“Hello”) 进行确认)。

关于批量页码:我自己用Vim,一个命令即可实现,你们可以使用excel,格式0000;
关于批量图片:重命名我用TotalCommander,你们可以使用xnviewer。

关于词条的编辑:我自己用Vim,毕竟是编辑器之神,只要想到的基本都能实现。你们可以使用任意顺手的编辑器。但无论如何词条输入,要么OCR,要么手工,都挺麻烦,我只不过使用AutoHotkey可以将任意窗口半透明,再用Vim定制一些快捷键,这样方便录入和校对。参见视频: 采用Vim+AHK快速处理图片版词典的词条索引

好滴,感谢大神详细的指导!

今天尝试制作辞典,又碰壁了:joy:

期待大神拨冗指导。