处理字词条索引重复的小工具

重复索引字词条处理工具.rar (174.4 KB) 合并去重说明.rar (3.0 KB)论坛非常好,自己也非常受益!看到论坛里有些字典多音字未处理,一个字9个读音9条索引,查找非常不便。今天在自己的老电脑中查资料时,找到了2013年修订汉语大词典时同事帮助写的两个小程序,适用于文字版字典的字词头对比处理工具。一个是合并字词条用的,即将多音字或多释义词的索引合并到一条里(不管内容是否相同);一个是删除重复字词条(不管内容是否不同)。
合同工具能起的作用就是识别相同字词头把他们合并在一起,变成一条索引查看全部释义。要讲把握,还是合并不容易出误刪现象;删除重复字条工具主要是确准字词条释义内容确实百分之百相同的情况下才用。工具不是很完善,但对刚入门者进一步处理本论坛放出的文字版大词典2.0、汉现7等字典绝对有用!
使用说明:
一、适用对象
1.编码为UFT-8格式的源文件。如未处理前“王”的两个读音分两条索引:

1

wáng

1.古代最高统治者的称号。

2.汉代以后封建社会的最高封爵。

3.朝谒天子。

…… 王

2

wàng

1.统治、领有一国或一地。

2.成王业;做皇帝;称王。

3.胜过。

…… 2.用合并工具处理后是这样变成这样(HR为分隔线): 王

1

wáng

1.古代最高统治者的称号。

2.汉代以后封建社会的最高封爵。

3.朝谒天子。

……


2

wàng

1.统治、领有一国或一地。

2.成王业;做皇帝;称王。

3.胜过。

……

3.再用其他文本编辑软件替换排版成符合规则的源文件格式(此步编辑排版可能需要一些简单的正则表达式):

1

wáng

1.古代最高统治者的称号。

2.汉代以后封建社会的最高封爵。

3.朝谒天子。

……


2

wàng

1.统治、领有一国或一地。

2.成王业;做皇帝;称王。

3.胜过。

…… 二、注意事项 1.处理前请先将编辑完的源文件打包为mdx文件,再解包为源文件,目的是对源文件文字进行排序,把相同字词条排在一起后便于合并,这一步非常重要。 2.如不同读音带不同序号,处理前请采取一定的技巧先将字条读音序号在源文件中排好序,工具按源文件排列顺序处理,不先排好序会可能会出现释义2排在释义1前面的现象! 3.需要处理的源文件重复字头不能夹杂其他上标号或下标号等字符。如为了排序先可带一些字符,但在用此工具处理时,一定要删除。否则将按不同字处理而无法合并。 4.处理前一定要作好备份,以防不测。还有弄不清的地方,可自己先拿部分源文件做试验后再正式操作。

1 Like

改成这个分类较好。

说明后缀rar改为txt