剑桥英语词典2023在线数据(1月22日更新)

英英是不是缺 dragon 这字?

3 Likes

真查不到,很神奇,我回溯一下。

1 Like

找到问题了,原来在提取词头我用的bs4,可能某些网页标签不规范造成提取错误,有一二十处,另外也顺带发现了未收入词典的语料部分我提取内容多了,把广告也收进去了,一会儿也修改一下。多谢!

2 Likes

发一个简单修改的css

common.css (72.7 KB)


2 Likes

官网英汉版内容不知道是缺失还是错漏,抓取数据与官网一致,carry词条子弹列表第一条例句飞了 :joy:

1 Like

可能手动修改更新内容引入的

可能是备份、测试、新功能的问题

可能是内容包含特殊部分,处理时逻辑没有考虑覆盖到。

正常各环节全走专用的录入系统流程,会约束此类行为。就是难为使用的人了,而且这在线词典生命周期也就一两年一抓,时时更新改动,不是定本,只能是发现多少问题改多少了。

2 Likes

看不懂,哪里有子弹?

1 Like

我回复主要是想打打杂,你们省点时间多处理词典 :laughing:

3 Likes

哦哦,由此发现,原来坛里的那个剑桥在线carry只有动词。
另外,我不想做下去,既没有能力,也用不上。但开了头,接连不断的问题逼着不得不搞下去……

那就用旧的嘛,一味地求新反而容易适得其反。

1 Like

你的帮助已经很大了,这些数据可以作为进一步处理的语料。

随心所欲不逾矩,心里负担会自我内耗的,咱又没做坏事。 :upside_down_face:

1 Like

多谢理解!已经要晕了。因为21#的提醒,发现了一些问题:

以为改了就ok了,谁知编译后发现还是少了一条,少哪条呢?哪个地方出问题先不管了,先找出来再说。那把词头提取出来与官网词表比对一下不就知道了,谁知一比对,吓了一跳,对不齐的有几百条。
浏览一下,原因大概有两个:
一、官方词表把idiom和phrase直接加在了词条后面,所以连同一楼的比对和替换表都得更新;
二、还是用bs4提取词头的问题。因为英英版包含了几部词典,所以标签结构比较复杂,一般正则不易提取,只得用bs4,也许是分析存在问题,更可能是网页标签存在问题,所以某些词头提取出现问题。
上面说的都是英英,英汉应该没啥问题,如果没人做,我有空可能会处理链接、删除冗余、增加js。英英不打算弄了,包括数据,至少暂时不再弄了,先把目前已知的问题上传,希望有高人接盘。

2 Likes

感谢!!但是我个人觉得在楼主提供的版本中把字号改小一点就可以了,当然“更多例句”可以收起来就更好了 :joy:

英汉与英英的比对结果也富于戏剧效果,比如英汉比英英竟然多出个a,难道英英没a?mdx查不到,在线却能查到,原来词头变成了A, a;再如英汉多出个zoom in on sth,原来英英中是zoom in on something;your own flesh and blood在英英原来是 someone’s (own) flesh and blood:数据格式不统一给数据处理带来很大麻烦。

3 Likes

折叠不方便全文搜索

1 Like

这个功能应该是全文搜索不够好的问题,因为搜索搜的是mdx数据,应该自建view层显示其位置信息,而非用原有词典的一到多常用的view,这是两个不同目的,不应该妥协成一个样子。

想要妥协词典这头的话,mdx数据那层就得多下功夫。就是拆分mdx的例句部分单独做一个反向位置词典,直接显示例句本身或切换至其在词典的位置,使用时选择哪一个展示。或者用用词典的分组来做例句是否展开的切换。

这两部分不改动的话,妥协的就只能是人了,人一会需要例句全文搜索的直接显示,一会需要内容简洁的显示。怎么区分呢?点击全文搜索就是一种信号,此时,软件应自动显示所有display none的内容(约定用这个特性做展开折叠的话)

词头数据分为两层: 查询时的用户输入形式的查询词头映射到真实的单位内容词头;和内容词头到释义这组映射就是最后呈现的html中所能推出来的信息。

而前者那组信息经常由服务器的私有逻辑处理,或者是本地端的混淆代码处理的,反正只有html是没法反推出其多个形式到一个单词的这个映射关系的数据的,之前的oed也有类似情况,html只包含部分变形,而实际语法大小写数量时态以及是否单独作为一个单词,直接复制粘贴的文章中的单词变形的数量是海量的,再回归到其原本形式,比如As 可以是A的复数而不只是as单词,总有要么漏要么乱的情况。wiktionary的情况好一点,那个html自带很多变形数据,扩充词头很多其实扩充的是搜索词头而非收据单词内容里的词头。

而第二个问题的URI不统一的问题,是和用户约定的问题。每个词典对各种同一模式的不同命名标记,以及不同时期的叫法,不同词典编辑小组的命名都不同,这个想要统一节省用户体验,可以一个个处理。现在搜东西基本上复杂点的模式只能搜到零星的结果,这个技术谷歌和百度应该有 :rofl: 想实现多形式数据、真实需要展示排列、一点的查询输入之间的连接自动化,百度引擎披露的两三代模型和论文,网页彼此收录量或基于数据统计,或者找找人工智能的加持,这三者用在词典数据的处理上。只能有缘相关领域的大拿对词典喜欢,工作之余顺便处理了。我还是一点点手动整理数据了,写个js基本函数都费劲 :laughing:

1 Like

对照英版,并无缺漏,只是多了占位符,此类情况有十几处,已修。

为什么我的英英版本不能显示图片?

深蓝词典英英词典也不显示图片