为繁体词典添加简体索引

我後來做的詞典都不再搞繁簡通搜索引,因為很多詞典軟件已經支持繁簡通搜。沒必要多此一舉了。如果你確實有需要,自己弄吧。本身又不難。我是不會再搞了。
以下轉的方法:
为繁体词典添加简体索引

工具:1.emeditor 2.textpro

步骤:

一、解出mdx源文件

二、用工具1打开后,用正则查找</>\n.+并全选(这样还少第一个词条,手动加上)

三、复制到工具2,为避免出错,先删去所有的</>,然后在菜单功能中点删除所有空行

四、把.+全部替换为\[email protected]@@LINK=[\0],然后点菜单功能中繁转简

五、全选,把内容复制到工具1,把正则(.+?)@@@LINK=[\1]全部替换为空

六、再把内容复制到工具2,删除所有空行

七、再把内容全部复制到工具1,把正则(.+?)(@@@LINK=.+)全部替换为\1\n\2\n</>

八、把内容复制追加到步骤一所解出的源文件之后

重新打包为mdx

4 Likes

第五步把所有内容都变空了,这是在做什么呢?(可能我的理解有误,还请指教)

“全选,把内容复制到工具1,把正则(.+?)@@@LINK=[\1]全部替换为空”

另:工具2的必要性是繁转简吗?若是,用OpenCC更好吧。

OpenCC更好對的。。。。

当初用这两个工具,一是文本编辑用惯了emeditor,二是textpro对中文处理有独到之处,当时删除空行也比前者快。
1 第五步是把简繁相同的词条去除
2 opencc我没用过,textpro很早了(当时是为了处理佛经特意制作的软件)。当时经过验证,它在转换时相对准确,不会出现把“乾坤”转为“干坤”的情况。估计它内置有繁简词典,而不仅是字典。
图片 图片
刚刚试了一下opencc,把“乾纲”转成“干纲”了。

1 Like

感谢解惑,这一步已经明白了!
看到您的原帖了: https://www.pdawiki.com/forum/thread-23241-1-1.html

还有一个问题请教

为了说明清楚问题,我虚构了一个pseudo案例,“a繁體詞頭”为原始的繁体,对应的简体为“b简体词头”。

在上述“步骤四”中,好像将所有的a繁体词头都转为b简体词头了:

b简体词头
@@@LINK=b简体词头

不知道哪个环节的处理,实现了从简体词头到繁体词头的LINK?

b简体词头
@@@LINK=a繁體詞頭

ref - 在另一个教程中,它是使用excel的行对齐特性,先将繁体转简体,之后又把繁体复制到对应的新列中,最后合并简体和繁体内容为新词条:
https://www.pdawiki.com/forum/thread-26196-1-1.html

是因为在textpro中可以设置中括号内的字符不转换,所以在第四步等号后的内容加了中括号。

原来如此,感谢!


为什么我这第五步报这个错误呢

改成這個:
QQ图片20200602102856

多谢,再请教下,打包时选择MDict(HTML)还是MDict(Compact HTML),二者有什么区别吗对生成的MDX的使用?

默認MDict(Compact HTML)。其他的我也沒試過。

多谢你啊,在你的指点下,将汉语大词典做了简繁通搜,在欧陆上使用暂没发现问题,但不知为什么,用preview软件在windows上竟然显示不出来,折腾了半天也不行,先不管了。

大部分词典是选择MDict(HTML)

MDict的html格式

第一行是关键字
第二行开始是正文
正文结束后必须用一行</>表示结束

MDict的紧凑型html格式(Compat Html)

这个格式由两个文件组成:正文文件格式基本和前述一样,但在正文里可以使用记号;另外
一个是记号文件。

记号文件的格式:由多个记号定义组成,每个记号定义有3行
第一行: 记号的名称(只能用数字,必须大于0,最大不超过255)
第二行: 开始字符串(可以为空)
第三行: 结束字符串(可以为空)

1 Like

多谢指点,明白 了

用GoldenDict把繁体词头复制到Excel,简繁转换得到tab分割的简→繁两栏数据

复制数据到emeditor做正则替换

  1. 删除简繁等同的条目
    (.+?)\t\1

  2. 删除空行
    ^(\s*)\r\n

  3. 插入简繁跳转
    ^([^\t])\t(.)
    \1\[email protected]@@LINK=\2\n</>

复制跳转加入到原mdx解包的txt中,再重新打包。
好处是正则处理的对象比较简单。