【已完结】 SIO双向双解词典v3.3

image
确实被篡改

5 个赞

只提取了21世纪的例句部分。反正我是不会再更新了,大家有进一步需求的,可以解压当前mdx,然后自己随意整合,加入其他内容。

2 个赞

我觉得最核心的是这些词典中的权威双解例句,已分享在网盘。

具体过程只能说是见招拆招,所以我说下思路吧,有了思路,如何实现,用什么语言实现,全看大家的功力。

  1. 下载相应的MDX,并解压。
  2. 从原始文本提取例句,可以正则,可以直接EmEditor编辑,可以python bs4,golang goquery解析页面。
  3. 统一例句结构,并清洗无效数据。
  4. 英文反查。用英文单词、英文词组,依次匹配例句文本。(词组可以从TLD提取,非常全,不会有遗漏。)
  5. 中文反查。使用结巴分词。
  6. 少量数据测试,没有问题,处理全部数据,打包MDX,并最终验证即可。

隔壁有个「有谁能帮忙写一个制作反查mdx的教程呢」的帖子,六楼说的很有道理。

12 个赞

okayer哥功德无量

1 个赞

收到。有标签就好办。多谢多谢。

2 个赞

汇报一下问题:
GoldenDict中搜索 *【 能查出大量词头和释义混合的情况

感谢持续改进更新!小反馈一下:最新的v3-2版本,没有 露马脚 一词,老版本3却能查到。

有五个词露出马脚了,请看:

我这里怎么查不到

不好意思,我没有说清楚。请用@ glacierlee大侠的 [Dict Tango]的全文检索查找。

2 个赞

哦,我是说直接查露马脚,查不到

1 个赞

上面反馈的

  1. 简明释义中大概1000多词组有词头和释义混合的情况。
  2. 露马脚等的反查查不到。这个和提取方式有关,我过滤的太严了。

这两个问题暂时不会修复了,差不多半个月所有空闲时间都在搞这词典,要吐了。

有问题大家可以先尽管留言。等到春节、国庆什么的,我再发个新版本吧。

10 个赞

大侠好好歇会会儿吧,我觉得现在这版暂时完全已经够用了。

1 个赞

真辛苦你了,真的很完美了,一直都想有这样全的双解词典。

1 个赞

谢谢楼主无私的奉献,敬礼!

楼主出了好几个版本,太不容易了。有没有哪个早期版本例句是全的?我主要用作汉英反查。

1 个赞

辛苦您了,已经很完美了,其实完全好用的,只是恰好查 这个 露马脚 没有

例句的话,早期版本反而不全,用网盘里的足够了。

当前版本的中文分词是比较细的,比如「露马脚」没结果,可以试下「马脚」。又随便打个比方,如果「事后诸葛亮」没结果,可以试下「诸葛亮」。

1 个赞

确实,马脚和露出马脚都能查到,谢谢大神!!!

目前版本起码有两点还可以改进。

  1. 不规则动词、名词、形容词等的变形没有做匹配。比如搜索bring,应该有包含brought的例句,搜索beauty,应该有包含beauties的例句。

  2. 词典中的词组提取时有遗漏。对于已提取的特殊词组也没处理好,比如after one’s own heart,应该变形为多个词组「after my own heart、after your own heart、after his own heart」等等,这样就可以匹配到例句 It is a job after his own heart. 甚至可以匹配They had thought long and hard and finally come up with an idea after Janice’s own heart.

等下一次更新吧。新版名字起码也是「TIO」了 :wink:

6 个赞