缘起
很早以前我就有这么一个想法,但因为编辑、校订的工作量很大,就不了了之了。不过,现在乘着 ai 的东风,似乎又可以重新捡起,一些繁琐劳累的编校工作,比如统一体例、核查错误、缩减过长释义等交给大模型预处理,然后人工审核即可。
就此各位有什么主意?
缘起
很早以前我就有这么一个想法,但因为编辑、校订的工作量很大,就不了了之了。不过,现在乘着 ai 的东风,似乎又可以重新捡起,一些繁琐劳累的编校工作,比如统一体例、核查错误、缩减过长释义等交给大模型预处理,然后人工审核即可。
就此各位有什么主意?
以《现代英汉词典》、OALD-8、ODE-2为底本,我初步编辑了一个样稿,收词量在10万左右。现在只是一个最简陋原始的起点,错谬不少,此后还有大量的编校工作需要去做。例如词典当中的某些百科词条释义过长,我尝试着用ai精简缩写,效果还可以,但因为还没有审校过,我并没有把它合并进底稿。
open_ecdict 样稿.txt (11.8 MB)
ai 释义缩减示例:
def_long.txt (990.4 KB)
def_short.txt (634.8 KB)
补充一个 GitHub 链接,在那里校改文本会更方便一些。
务必考虑 LLM 的幻觉问题,这和词典的准确性(相对)是相悖的。
ai只是用来做预处理,只有人工审核过才会添加进底稿。
本来更基础的词汇释义我打算用《英语专业四八级词汇表》,但它太简略了,确实是词汇表,而不是词典,一些并不生僻的义项也缺失。
搞这个开源项目,目前也不是真的编词典,确实需要查词,用正规出版的词典好了,选择也很多。它的主要目的是提供查询的快速参考,力求释义准确,简洁精炼,以供程序调用等。
现存的一大障碍是版权和所谓的“抄袭”问题,它只能通过此后的不断编辑、校改、修订来逐步解决。
为了便利编辑修改,词典采用纯文本格式,但也为了程序可以部分准确处理,给文本加了三种分界符:词头 ⇒ 音标 ※ 释义 〇 来源。➜ 符号指的是链接跳转。至于〈3〉指的是什么,自己去研究就知道了。目前文中注明来源,以保证释义的准确和权威。
abduction ⇒ [əbˈdʌkʃən] ※ noun, [mass noun] 1. 诱拐,劫持,绑架 → (法律用语)诱拐儿童 2. [生理] (肢体或其他部位的)外展。 adduction 的反义词[见 adduct] 〇〈4〉
abductor ⇒ [æbˈdʌktər] ※ n. 1.劫持者;绑架者;绑匪 2.(解)展肌 〇〈3〉
Abduh ⇒ [ˈæbdu:] ※ 阿卜杜,穆罕默德(1849—1905,埃及伊斯兰教学者、法理学家和自由主义改革家) 〇〈4〉
Abdul Hamid II ⇒ [ˌæbdʊl ˈhæmɪd] ※ 阿卜杜勒哈米德二世(1842—1918,1876—1909年土耳其最后一位苏丹,独裁专制统治者,在青年土耳其组织起义后被废黜) 〇〈4〉
abeam ⇒ [əˈbi:m] ※ adv. 正横地(即与船的龙骨或飞机的机身成直角) → 横对着(船或飞机等)的中部 〇〈4〉
a beam in one’s eye ⇒ (与他人相比)自身特别重大的缺点 〇〈5〉
abeam of ➜ abeam
abecedarian ⇒ [ˌeibi(:)si(:)ˈdɛəriən] ※ adj. 按字母顺序排列的 〇〈4〉
abed ⇒ [əˈbed] ※ adv. (old use)在床上 〇〈3〉
萝卜白菜,各有所爱。词典的主要作用是查语义,就释义不准、不佳这一条,就在我这里pass、淘汰了。其他的,什么考试词级、多种发音,我个人觉得都是没用的干扰信息。
best ⇒ [best] ※ n. 1.最好的事物;最好的状况(或部分) 2.最好(或最优秀、最能干)的人 3.最好的衣服,盛装 4.最诚挚的问候,祝愿 | adv. 1.最好地;最适合地;最有效地 2.最 | vt. 打败;胜过 | adj. 1.最好的,最优秀的 2.最适合的 3.最大的,主要的 〇〈2〉
Best ⇒ 贝斯特,查尔斯·赫伯特(1899-1978,美国出生的加拿大生理学家,协助F· G·班廷于1922年发现胰岛素) | 贝斯特,乔治(1946-2005,北爱尔兰足球运动员,曼彻斯特联队边锋,获1968年欧洲足球先生称号) 〇〈5〉
best在我这里查出来的释义,可以略微对比,The Little Dict不少义项丢失了。像串入的“n.(Best)人名;(英、西、德、葡、法)贝斯特”,也是莫名其妙,应该是合并了专门的人名翻译词典。它的释义数据好像是基于skywind的ECDICT,里面的差错不胜枚举。
A:如果只是输出上述案例,借鉴 Vibe Coding,先定义规范 + 精心维护的词表,然后让AI逐个处理,最后在人工审核,理论上是完全可以的。
B:如果 A 的质量很好、需求火爆,那么鉴于词典的应用场景很多,很可能会要求在原始版本基础上增加很多特性,但这样复杂性就产生了,难以平衡不同的需求,或许就会衍生很多分支版本,或许需要委员会/理事会之类的协调机构精心构建规范(类似 Python 发展过程),或许需要配套工具,原始数据 + 个性化配置 ==> 输出个性化结果。
The Little Dict 词典数据来源不确定,有网友说是youdao,可以确定的是,释义准确度好过大多数在线词典。个人开源词典,如不借/抄鉴/袭未必好过TLD。也正是发现TLD有较多没用的干扰信息,才需要进行修订维护,相比从零开始,事半功倍,不是吗?
词表用的是ODE 2的词头数据,10万左右,加上衍生词和短语,13-14万之间。这个词汇量我认为一般情况下是够用了,规模再扩大,就有点失控了,个人无法有效管理审核。先把这个数据做扎实,以后有必要可以进一步扩充。
以现在ai的性能,只给词头,定义清楚体例,同时给若干样本,是能够编辑出相当不错的简释词典的,但这么做审校修正的工作量有点大。为了避免错误和幻觉,还可以加一个RAG流程,给ai提供若干权威词典作为数据库,让它在这个基础上检索提取释义。
另一种思路,就是找一个相对可靠的开源英文词典,然后让ai翻译成中文,再予以审核校订。我大略搜了搜,好像没有很理想的底本,比如有个 The Online Plain Text English Dictionary (OPTED),是以1913年的Webster词典为基础的,它显然陈旧过时了。
老老实实“抄袭”专业词典,我认为是强于虽然还是抄袭,但为了避免这个名头,遮人耳目,而找一些廉价大学生把别人的词典洗稿胡搅蛮缠乱改一气的。像有道、海词、(必应)等在线词典,按理说不缺钱买断别人的词典版权而后开源,或者聘请业界人士来编辑审校4-5万个基础词汇的释义,但它们就是不这么做,一通胡来,流毒天下。
如果觉得The Little Dict很好,自己去改进完善它好了,并没有人拦着你。
这么整的话,
1.涉及版权问题;
2.你是觉得ODE不够好吗?
我不认为用ODE的词头存在版权问题,词汇并不属于哪家出版社或者公司。王力的古汉语字典明确在前言里说用的是《辞源》的字头数据,没听说有人就此提出版权指控。
不过就目前的状况open ecdict在释义上存在版权问题,我在前面已经讲过了,它是一个需要长期逐渐解决的障碍。
ODE算我用的主力词典了,没什么不好,但我同样也已经就此说过:
搞这个开源项目,目前也不是真的编词典,确实需要查词,用正规出版的词典好了,选择也很多。它的主要目的是提供查询的快速参考,力求释义准确,简洁精炼,以供程序调用等。
像在ePub阅览器里需要快速看一下词义,ODE这些就未必合适。
维基词典成于多人之手,泥沙俱下,无法控制质量、程度(详或略)、范围,中文版尤其如此了。
那么是否意味着,关键应该是有个核心人物或团队,有较高的质量把关?但这可能会引发很多问题——热情难以持续。
不过想想优秀的开源作品也都是如此,先要有个开创性的东西,即使随着时间流逝,维护断断续续,但只要质量够好,说不定什么时候就会有人跟进。
10万词的简明释义词典,我自己浏览或者通读一遍应该没问题,毕竟早已读过好几种数万词的词典了。目前绝大多数词的释义也不需要改动,它们通常是准确的(从底本复刻),主要检查有没有因为多重转换导致的错误或者文字遗漏。先做到正确,然后再说适当和符合体例的问题。
之前站上网友 shaoshi 有做过一个英文词典常收词,
收了 33217 词头。
可以先从这里开始。
没什么意义,外研社、牛津的词典编撰专家研究什么词头/词汇重要起码几十年了,ODE又是重头戏,用它比啥都强。一个考研、GRE或者Collins词汇失收?我更相信是考研、gre词汇表或Collins编撰者的偏差和错误。