【首发】異體字詞典

【首发】異體字詞典
在线版:http://jf.xmu.edu.cn/variants.html

歡迎使用異體字詞典!

異體字詞典由廈門大學自然語言處理實驗室出品。不同於傳統異體字整理工作,我們藉助最新的自然語言處理技術,將古籍文本的統計信息和語義表示與現有的多種異體字字表相結合,輔之以人工編校,得到更適用於古文理解的異體字字典(詞典)。

目的 :試圖囊括古籍所有異體字,爲學習研究古籍服務。目前僅限於UNICODE已收漢字。

特色

  1. 以詞明字 。雖然古籍中單字詞多,多字詞也不少。而異體字的使用並非全無限制,有時僅局限於某些詞。所以我們采用詞典的形式,試圖收錄非完全同義異體字的典型使用情況。
  2. 收字全面 。不但匯集權威字典(台灣異體字字典、中華大字典、中華字海)的異體字信息,也從古籍大數據中通過自然語言處理技術挖掘異體字信息。目前收字總數爲87861個,異體字總數超過7萬個。異體字收錄之全,超過目前所有字典。
  3. 機助人校 。採用計算機自動編纂,輔以人工增補校勘。自創開放式詞典編輯環境,開網絡詞典合作編輯風氣之先。
  4. 旁徵博引 。收異體詞超10萬條,例句超20萬句(此項數據僅供參考,會隨時變化),全部来自权威词典和数字化古籍。这些例证可幫助使用者更好地理解古籍。

异体字词典编辑校对指南

异体字源于同一个字的不同书写形式。汉字经过漫长的演变,从甲骨文、金文、篆书、隶书、楷书、草书到现在流行的宋体(明体),书写形式一直在变化。春秋战国时代,书籍主要刻于竹简,一个字多刻一划少刻一划是可以理解的,繁难字用同音的简易字替代也是可能的(所谓“通假”)。即使以后有了印刷术,也是需要刻字或制作活字的。东汉蔡伦发明纸张以后,毛笔成为主要书写工具,一个字容易产生不同的变体。再加上避讳造成的缺笔等,异体字的产生是很正常的。

另外,汉字主要是表意语言,为了确切地表达语义,字的数量一直在不断增长。通过添加偏旁,一个字有时分化为几个字。但是原字并没有消失,而是继续使用。这就是字的“繁化”。另一方面,民间常采用俗字来代替难写的字,这又导致字的“简化”。20世纪以来,简化字成为趋势,大陆在1956年公布了汉字简化方案,简化字成为国家标准。另外,修改了很多汉字或偏旁的字形,使之更为易读(所谓“新旧字形”)。简化和繁化,使得一个字的异体字更多。

此外,部分异体关系的形成源于同一概念的不同造字方式。例如,“杯”字从木,就其材质而造字,“盃”字从皿,就其器类而造字,虽然形式上差异较大,但因表示相同的概念故二字可相通。

很多字典都收录一个字的异体形式。如:

  • 戮:通“勠”。(汉语大字典1515页)
  • 𢑕:同“勠”。(汉语大字典1030页)
  • 戮:〔古文〕𡠢𦐱。(康熙字典414页)

但是,这些异体字信息散见于各条目。系统地收录异体字的字典当属《异体字字典》。在“戮”作为正字时,一共收录了如下28个异体字:


另外,“戮”还作为另一个正字“勠”的异体字。

我们的异体字词典在异体字收录方面的原则,部分是和异体字字典一样的,即是尽量求全。但是,异体字字典收录的很多异体字,在Unicode国际标准中尚未编码。这就暂时不属于我们的研究范围(当然,未来Unicode标准修订了,这些“集外字”就纳入了我们的研究)。比如,“戮”,我们目前收录的异体字有(括号中的数字是在我们收集的至善古籍语料库中出现的频率):
勎(109) 𠝧(0) 𠞨(0) 𡠢(0) 𡭁(0) 𢑕(0) 𣩍(0) 𦐱(0) 𦞋(0) 剹(111) 𦐟(0) 勠(1416) 僇(8628)

除了从一些权威字典(我们称之为异体字的“源”)中提取异体字信息以外,我们采用人工智能的方法,从古籍大数据中自动提取异体字。目前主要采用两种方法,一种称为深度学习,另一种称为众包。这两种源,在异体字词典中分别称之为word2vec和search。

不管一个异体字的信息是否在权威的源中有记录,我们都希望能在语料库中找出佐证。没有佐证,不足以取信(当然,我们目前的语料还不够全面,将来随着语料的更全,我们的结果也会进一步改进)。我们提供佐证的主要办法是找出“异体词”,即一个字的不同异体字和其他字构成的2字以上的词或词组(目前在计算机自动生成的佐证中,还只限于二字词)。

由于异体字词典目前是计算机全自动编辑,里面源于word2vec和search的异体字均由计算机自动找出,难免含有错误。异体字词典的校对,就是剔除这些不正确的异体字。(例如:search将“並”作为“𠊓”的异体字,将“義”作为“𣚘”的异体字,word2vec将“戀”作为“憐”的异体字,但根据例句可以看出这些字实际上并非异体关系,应予以剔除。)至于其他源的异体字,暂时不在剔除的范围,但是这些权威源的异体字,如果出现的频率较高,计算机又没有自动找出佐证,那么很有可能是错误。这种情形,可通过留言的形式,指出可能的错误。这时候,就需要说明理由。

此外,由于目前的所有异体词和例句都是由计算机自动生成,其中可能存在相当一部分错误,也需要在校对过程中予以修訂或剔除。

更详细的校对说明参见“ 校对举例 ”。

要注意的是,我们定义的异体字概念是比较宽的,包括古籍中出现的“别字”、“讹字”等。比如因避讳造成的缺笔字,我们认为是异体字。我们可以指出古人的错误,但是我们不去更改古籍的原貌。这样,使得我们的结果,可以用于更多的方面,如数字化古籍的校对。



离线版:
经测试,电脑Mdict,手机深蓝,字体均可显示。
链接: 百度网盘 请输入提取码 提取码: qkh2

FreeMdict 已经收录,
下载链接:https://downloads.freemdict.com/Recommend/異體字詞典.zip

8 个赞

好词典,楼主的汉语词典质量可靠。

感谢兄台制作分享。
现在两部异体字词典合璧生辉了

2 个赞

可以可以 感谢 当时这个厦门把我ip封了 就没有继续了

1 个赞

站长应当把这字典收入网站以便下载,百度下载像蜗牛。

最好上传至freemdict,不限速下载。

不是所有人!本论坛有些上传,无论用IDM 还是用FDM,还是windows自带下载器,下载速度:120k==>100K==>75K==>28K==>0K:下载失败!而且还不支持断点续传。

更有神秘的,连管理员都无法下载。

1 个赞

请举例 我都无法下载的只有一个js请不要在这个危言耸听好吧 另外地区原因导致的下载失败,恕不解决,有的人喜欢有的人不喜欢我的服务器下载,解决不了。有的人喜欢百度云下载,那是因为你们是超级会员。

请站长上传。。

1 个赞

可能我没有说清楚。地区原因不解决我没有意见!但是我说的不是事实吗?例证帖子:
1、管理员无法下载的(hua大有评论):Oxford living dict(英美切换)
无法下载
2、下载前几十秒只有几十k速度,然后速度为0,只举两例:牛津小学词典(本站资源)、GCIDE


正在上传。。楼主能不能采用其他网盘分享与我,谷歌盘之类的

我用Free Download Manager速度比下百度云快多了

没必要以偏概全

1 个赞

他也没有以偏概全啦,反映的是仅仅是他的那边的问题,是我太激动了。此话题可以休止一会拉。

留個郵箱,發你郵箱

[email protected]

哈哈,楼主是汉语字典专家啊~

你了解太少了,不是所有的字都有异体字。

1 个赞

可以反查嗎?

異體字不能用TXT文檔編輯,更應用PNG或者JPG圖片來制作。否則一些系統中沒有的字全是以囗顯示,因為PNG或者JPG不用考慮顯示的問題,它就是字典原字的展現。建議用掃描版制作,我下載的除了系統字庫有的,其它根本用不了。

2 个赞

感谢大师的惠赐。
如果能优化下词头,能查Uni码就好了。

1 个赞