初步谈一下上面所述中型英汉词典数据库的构想:
1、它的基本版收词量大概在6-7万之间。此一数据不算空穴来风,去观察一下,牛津简明英语词典(COD),《现代汉语词典》,日本的《三省堂国语辞典》、《明解国语辞典》和《岩波国语辞典》,法国的《Le Petit Robert》,《朗氏德汉双解大词典》,收词量全部落在6-8万这个区间,说明无论你的母语是什么,这一量级的词汇量对普通人应付学习、工作、生活来说是足够了,或者绰绰有余。
2、数据库编修的基础选定为《21世纪英汉词典》,原因有好几个:a)它是绝版的词典,不与那些现售的词典发生利益冲突;b)文本数据是现成的,相对准确,只需要略微整理校改;c)其释义风格简明精炼,适合快速参考;d)收词量中等程度,便于扩充,我个人认为编词典增词容易删词难。
3、有了基础文本,下一步的任务是改进完善,主要有下列工作可做:
i)补充失收“备考”词条。把那些中考词汇、高考词汇、四六级词汇表、研究生入学词汇、专业英语四八级词汇、托福/GRE词汇都找来,程序扫一遍,凡遗漏了的都予以添加。
ii)适当补充BNC、COCA这些大规模语料库中词频排名在20000以上的词汇。
iii)《牛津高阶英汉双解词典》某一版本中的全部词头(headword)予以收录,还可以考虑《朗文当代》、“柯林斯”这些学习词典的词头数据。
iv)是否继续把词条收录扩展到COD(牛津简明)待议,也看前面的工作进行得如何,比如已经有60000词头了,再扩大可能会超标超纲。
v)补充词条时的注音、释义力求准确有据,注明出处,像从《牛津高阶》补充收录的词条直接用原始的中文释义即可。
vi)从不同来源增补词汇,难免有体例不一致的地方,比如有的词典分vi.、vt.,有的只标verb。先收录进来,再集中校改,统一体例。
vii)某些其他词典来源词条释义过详过繁,在注明来源的基础上参考另外的辞书予以删改。
viii)数据库词目基本完备之后,可以开始对词条释义予以校订,这是一个长期的工作,力求最终有独立、开放的版权。同时也可以适度删除、增补某些词条,但必须有足够理据。
4、在“基本版”英汉词典数据库的基础上,继续搞扩大版,10万词版,15万词版,20万词版。扩大版的词头依据应该是某一著名词典,注音、释义来源择良而从,因为自6万以上增收的词汇基本都是生僻单词或者专业词汇,其中文释义基本是固定的,也谈不上太多谁抄袭谁。octogen总是翻译为奥克托今,pachycephalosaur总是“肿头龙”而不是“胖头龙”。
5、数据库扩大的原则是宁缺毋滥,例如编修者如果不能把从6万扩充到10万所增加的4万个词条通读校阅一遍,那就不应该搞这个所谓的扩大版。