阿弥陀佛
1
我後來做的詞典都不再搞繁簡通搜索引,因為很多詞典軟件已經支持繁簡通搜。沒必要多此一舉了。如果你確實有需要,自己弄吧。本身又不難。我是不會再搞了。
以下轉的方法:
为繁体词典添加简体索引
工具:1.emeditor 2.textpro
步骤:
一、解出mdx源文件
二、用工具1打开后,用正则查找</>\n.+并全选(这样还少第一个词条,手动加上)
三、复制到工具2,为避免出错,先删去所有的</>,然后在菜单功能中点删除所有空行
四、把.+全部替换为\0@@@LINK=[\0],然后点菜单功能中繁转简
五、全选,把内容复制到工具1,把正则(.+?)@@@LINK=[\1]全部替换为空
六、再把内容复制到工具2,删除所有空行
七、再把内容全部复制到工具1,把正则(.+?)(@@@LINK=.+)全部替换为\1\n\2\n</>
八、把内容复制追加到步骤一所解出的源文件之后
重新打包为mdx
6 个赞
Vim
2
第五步把所有内容都变空了,这是在做什么呢?(可能我的理解有误,还请指教)
“全选,把内容复制到工具1,把正则(.+?)@@@LINK=[\1]全部替换为空”
另:工具2的必要性是繁转简吗?若是,用OpenCC更好吧。
1 个赞
当初用这两个工具,一是文本编辑用惯了emeditor,二是textpro对中文处理有独到之处,当时删除空行也比前者快。
1 第五步是把简繁相同的词条去除
2 opencc我没用过,textpro很早了(当时是为了处理佛经特意制作的软件)。当时经过验证,它在转换时相对准确,不会出现把“乾坤”转为“干坤”的情况。估计它内置有繁简词典,而不仅是字典。
刚刚试了一下opencc,把“乾纲”转成“干纲”了。
1 个赞
Vim
5
感谢解惑,这一步已经明白了!
看到您的原帖了: 我这样为繁体词典添加简体索引 - 词库制作交流区 - Dictionary-Making - 掌上百科 - PDAWIKI - Powered by Discuz!
还有一个问题请教
为了说明清楚问题,我虚构了一个pseudo案例,“a繁體詞頭”为原始的繁体,对应的简体为“b简体词头”。
在上述“步骤四”中,好像将所有的a繁体词头都转为b简体词头了:
b简体词头
@@@LINK=b简体词头
不知道哪个环节的处理,实现了从简体词头到繁体词头的LINK?
b简体词头
@@@LINK=a繁體詞頭
ref - 在另一个教程中,它是使用excel的行对齐特性,先将繁体转简体,之后又把繁体复制到对应的新列中,最后合并简体和繁体内容为新词条:
1 个赞
是因为在textpro中可以设置中括号内的字符不转换,所以在第四步等号后的内容加了中括号。
1 个赞
多谢,再请教下,打包时选择MDict(HTML)还是MDict(Compact HTML),二者有什么区别吗对生成的MDX的使用?
阿弥陀佛
12
默認MDict(Compact HTML)。其他的我也沒試過。
多谢你啊,在你的指点下,将汉语大词典做了简繁通搜,在欧陆上使用暂没发现问题,但不知为什么,用preview软件在windows上竟然显示不出来,折腾了半天也不行,先不管了。
Vim
14
大部分词典是选择MDict(HTML)
MDict的html格式
第一行是关键字
第二行开始是正文
正文结束后必须用一行</>表示结束
MDict的紧凑型html格式(Compat Html)
这个格式由两个文件组成:正文文件格式基本和前述一样,但在正文里可以使用记号;另外
一个是记号文件。
记号文件的格式:由多个记号定义组成,每个记号定义有3行
第一行: 记号的名称(只能用数字,必须大于0,最大不超过255)
第二行: 开始字符串(可以为空)
第三行: 结束字符串(可以为空)
1 个赞
用GoldenDict把繁体词头复制到Excel,简繁转换得到tab分割的简→繁两栏数据
复制数据到emeditor做正则替换
-
删除简繁等同的条目
(.+?)\t\1
-
删除空行
^(\s*)\r\n
-
插入简繁跳转
^([^\t])\t(.)
\1\n@@@LINK=\2\n</>
复制跳转加入到原mdx解包的txt中,再重新打包。
好处是正则处理的对象比较简单。
想请教下大家,OpenCC和textpro到底哪个好啊?看佛大和vim大说opencc更好,但sxingbai说opencc会把词语转换错。那到底用哪个好呢?
请问Excel审阅里的简繁转换功能对比textpro的繁简转换效果如何?对生僻字以及词语的繁简转换效果怎么样?
不用太纠结,没有完美的转换,因为没有完美的人工智能。这既让人无奈,也让人骄傲。
实测结果是这样:
“乾綱”
OpenCC 正确转成 “乾纲”
TextPro 正确转成“乾纲”
Excel错误转成“干纲”
如果换成“乾纲”,指定繁转简,则以上三款都会错误转成“干纲”。
“𪙁齖”一词,TextPro强行转换为“𪙁牙”。
OpenCC 则不转换。
没有完美的转换是不错,只是想找一款相对更靠谱的繁简转换工具,以后添加简体索引就选最靠谱的那个软件了。