所以使用这种加密字体的词典,是没有通用的替换表的?每部词典都可以出现新的变化?
每部词典得重新人工替换?
所以使用这种加密字体的词典,是没有通用的替换表的?每部词典都可以出现新的变化?
每部词典得重新人工替换?
不知道,但是这种静态字体加密的方式有点过时了,随时可能会升级,现在都是动态字体加密,破解方需要自己训练识别,而且不能保证 100% 还原。珍惜现在的美好时光吧。。
这种就是没加密。
xml 版的辞源也没加密
<YiXiang> 竟,乃。 <ShuZheng><Q>戰國策</Q><Q>齊</Q>一:“<Z>靖郭君</Z>之於寡人,一至此乎!”</ShuZheng></YiXiang>
<YiXiang> 助詞。用以加強語氣。 <ShuZheng><Q>管子</Q><Q>霸形</Q>:“今<Z>楚王</Z>之善寡人一甚矣。”</ShuZheng><ShuZheng><Q>戰國策</Q><Q>燕</Q>一:“此一何慶弔相隨之速也。”</ShuZheng></YiXiang>
<YiXiang> 樂譜記音符號之一。詳“<LianJie link="82114696-J4X6G3">管色譜</LianJie>”。</YiXiang>
主要是清理私有字的过程探索下能不能自动化,以及xml有缺数据的,用网页版可以补补,目前加密的就看到一个网页版辞源。
我试了一下这个方法。把私用字贴到检索框里,就会显示正确的字。
假如再检索,会得到《现汉》的词条。
但是,不管是检索框里的字,还是网页《现汉》显示出来的字,都仍然是私用字。
假如复制回来,还是私用字。
仍然得自己找Unicode编码。
唯一的好处是不必猜是什么字。
已经有M.C的xh7文本了。这个字xh7假如有,可以再查xh7的mdx,看Unicode是什么。mdx用的是Unicode。
但是我自己有一个Access的汉字资料库,已经相当完备了,能用两分法找Unicode。所以就不用这个方法了。
其他人可以考虑用叶典。叶典网站慢得很,但坛里有佛爷做的叶典mdx。
假如是正文里的私用字,可以看词头是什么,查K大的mdx。K大的mdx已经转换成了Unicode。
写了上面的帖子后,因为提到M.C的《现汉7》,忽然灵光乍现,想到了解决问题的办法。
<ci>〖锕〗</ci>
<yiti>(錒)</yiti>
《新时代》有私用字的词头多数是类推简化字,但是所附上的繁体字多数是Unicode。
由此可以做出一个繁体字和类推简化字(私用字)的表。
M.C的《现汉7》是Unicode词头,有许多类推简化字,另外做了繁体字的跳转,跳到类推简化字的词头。
㑳
@@@LINK=㑇
这些跳转可以做成另一个繁体字和类推简化字(Unicode)的表。
把两个表在数据库里联系起来,在繁体字上做链接,就可以得出一个“类推简化字(私用字)”到“类推简化字(Unicode)”的转换表。
把这个表放到Emeditor的批量替换表里跑了一下,千多个私用字用例就只剩下百多个,再手动把剩下的这百多个做完。
已经攻下山海关,接下来就可以挥军长驱直入中原了。
我在30楼发的是原词头。
citiao.zip (803.2 KB)
这里发的是改完后的词头。
entry.zip (844.4 KB)
想自己做词典的人可以用改过的词头去替换原词头。
也可以做一个私用字的替换表。能不能用来做别的词典,就不得而知。
我看楼主校对了不少,不拿xml做一版吗
已经做完了,能用,但是估计还有一些隐藏的问题还没处理。
因为是隐藏的问题,所以不知道可能浮出水面的会是什么,不知道可能是无害的海豚,还是鲨鱼?
因为停下来去弄《汉语成语源流大辞典》,所以搁置了。
贴个图。
没有兴致排查了,就发出来吧。技术限制下载。
这个app的数据看来比xml和pdf都新。但是我不能根据app做校记。所以对了缩印本pdf,pdf假如还是错的,就根据pdf做校记。
啊,不对。你这是哪个英汉词典?不要把水搅浑。
研习版,可以分享一下吗。
农历九月初一(公历10月3日)月光将会黯淡。