LDOCE5 的Activ、词频、人、机器训练的联想

LDOCE5 的Activ的优点:

词典的查阅是实现英语使用来进行沟通表达信息的必要的一环。而我们又知道语言是信息的载体外壳,所以朗文5的Active的分类在一定程度上是同义词的更高级的分类联系的呈现,同义词只是在词的层面,朗文的activ已经逃脱语言本身,在表达概念本身的层面了。

还能怎么完善

上面是优点,是和同义词本身比的长处。更完善的方式是针对目的增加频率、投资回报比。

词本身的频、词的义项的频,都是为了沟通的通用性、学习过程本身的成本和收获等等的得失比例来进行经济性的衡量。

但词又是因为概念而生的,正如化学元素周期表和扑克牌的54张牌一样,简单的罗列是简单的,也是重要的,但跟最终的需求使用比,这还远远不够,要根据使用的不同需求将单词本身再次进行组织联系,以需求的场景、概念的选择、不同程度的人脑本身、人脑本身的付出到回报的最佳学习方法作为最终衡量的重要标准们,才能更优化目标。

即当下词典的单词的罗列已经很够了,当下对这些庞大的元素如何针对到人身上根据目标最大化利用,将这些元素如何组织是词典发挥作用的瓶颈。

这涉及到:

  1. 人脑本身的学习方式:这一块有相关领域,但从小到大没有人教,最后的学习方式因缘巧合出于很混沌的个体的几十年的机器训练中,很显然是不如社会的群体实践的机器训练得出的方式更科学有效的,但是基于博弈论,掌握这些价值的人又不会扩散于外人失去竞争性,那么新生的只能抱团重起炉灶,这无异是一次长征,是新力量对保守力量在政治、经济、文化各方面的较量,很多时候都失败了而被老路趋同化。现在看到坛主的新的组织程度,不知是否达到了初心时的设想。
  2. 概念本身:到底有多少信息是不同阶段、程度、需求的人所必要使用的、这个划分一点都不清晰,现在的词典给出的是以语言的单词为中心的,而非以需求、使用、进行贴切划分的,这一块做得好一点的是牛津培生剑桥的各种教材系统班,当下的词典能做的较好的,有这个方向的就是朗文了,而且第6版看起来还停滞了。。但凡新力量,尤其是背叛原有旧力量的新力量,其本身在创新的站错屁股的同时,已经相当程度的毁灭了自己?
  3. 当下掌握机器对人脑模拟、测试研究出的最好的方式,让谁知道了?我们又怎样才能知道?

以下是杂项、过程思考的中间信息:

如果能加上The little dict里面的义项词频而非单词本身的词频,以及再加上The little dict里的coca领域分类,则能更明显的凸显出不同使用场景、不同频率的表达方式、细致的额外倾向(如人的态度的褒贬、事实真实性的依赖链条、价值付出回报量的多少、时空的侧重的工具方法、显著的个体特点不同、面向不同成分分工合作的最佳组织方式等)

最终理想的结果:

人脑模拟的大量训练产出对特定目标的最佳解决方案:

  1. 对不同人的已有水平的探测来调试接下去的动态步骤,而不是静态的字典让用户选择需要怎么学(因为人是有上限的,而机器的特定领域的上限比人高,比如围棋这种)
  2. 对不同定义的目标进行选择安排接下来的学习的内容、方式、先后顺序、看<->写|读<->说|练习的比例。(视觉是主要的信息渠道,听觉就信息密度是次要的,但感染力、可塑性和其他配合在人与人的沟通中是更强的方式)

关于字典的准确性可以从ODE为蓝本,以朗文的语音为填充、以各种字典的优势进行补充,因为是不同受众的唯一词典,所以各种东西都要有,最后数据如何以何种形式进行呈现取决于使用者的目标设定和自身水平。

或者考虑法律层面全新抓取语料根据概念频率、词频、义项频率、不同需求领域的价值排序编写,还要考虑组织度,当下的松散组织是不容易被注意,但是也没有组织力。这么个字典诞生了之后如何保障成果不被窃取、敌对势力的破坏、渗透、阻挠,都是对组织的考验。。是涉及一系列的所有科学的星星之火的诞生。只是在词典领域好像还没被压迫到这份上,所以解放也不会那么吸引人,最危险的时候的大救星才能有众志成城的义务自愿的团结一心。而没有压迫,这种反差就不大,感恩也不会多,回馈也不会多,事也就难成了,对于命权钱、尚且回馈几十了年就变成了浦东还是那个上海,对此词典,更是力不从心。