确实被篡改
只提取了21世纪的例句部分。反正我是不会再更新了,大家有进一步需求的,可以解压当前mdx,然后自己随意整合,加入其他内容。
我觉得最核心的是这些词典中的权威双解例句,已分享在网盘。
具体过程只能说是见招拆招,所以我说下思路吧,有了思路,如何实现,用什么语言实现,全看大家的功力。
- 下载相应的MDX,并解压。
- 从原始文本提取例句,可以正则,可以直接EmEditor编辑,可以python bs4,golang goquery解析页面。
- 统一例句结构,并清洗无效数据。
- 英文反查。用英文单词、英文词组,依次匹配例句文本。(词组可以从TLD提取,非常全,不会有遗漏。)
- 中文反查。使用结巴分词。
- 少量数据测试,没有问题,处理全部数据,打包MDX,并最终验证即可。
隔壁有个「有谁能帮忙写一个制作反查mdx的教程呢」的帖子,六楼说的很有道理。
okayer哥功德无量
收到。有标签就好办。多谢多谢。
感谢持续改进更新!小反馈一下:最新的v3-2版本,没有 露马脚 一词,老版本3却能查到。
我这里怎么查不到
不好意思,我没有说清楚。请用@ glacierlee大侠的 [Dict Tango]的全文检索查找。
哦,我是说直接查露马脚,查不到
上面反馈的
- 简明释义中大概1000多词组有词头和释义混合的情况。
- 露马脚等的反查查不到。这个和提取方式有关,我过滤的太严了。
这两个问题暂时不会修复了,差不多半个月所有空闲时间都在搞这词典,要吐了。
有问题大家可以先尽管留言。等到春节、国庆什么的,我再发个新版本吧。
大侠好好歇会会儿吧,我觉得现在这版暂时完全已经够用了。
真辛苦你了,真的很完美了,一直都想有这样全的双解词典。
谢谢楼主无私的奉献,敬礼!
楼主出了好几个版本,太不容易了。有没有哪个早期版本例句是全的?我主要用作汉英反查。
辛苦您了,已经很完美了,其实完全好用的,只是恰好查 这个 露马脚 没有
例句的话,早期版本反而不全,用网盘里的足够了。
当前版本的中文分词是比较细的,比如「露马脚」没结果,可以试下「马脚」。又随便打个比方,如果「事后诸葛亮」没结果,可以试下「诸葛亮」。
确实,马脚和露出马脚都能查到,谢谢大神!!!
目前版本起码有两点还可以改进。
-
不规则动词、名词、形容词等的变形没有做匹配。比如搜索bring,应该有包含brought的例句,搜索beauty,应该有包含beauties的例句。
-
词典中的词组提取时有遗漏。对于已提取的特殊词组也没处理好,比如after one’s own heart,应该变形为多个词组「after my own heart、after your own heart、after his own heart」等等,这样就可以匹配到例句 It is a job after his own heart. 甚至可以匹配They had thought long and hard and finally come up with an idea after Janice’s own heart.
等下一次更新吧。新版名字起码也是「TIO」了 。