【已完结】 SIO双向双解词典v3.3

再分,实用性不大。

根据什么去判断词性

2 个赞

学习型词典都有词性分类啊,我做那个牛津例句提取就是按照词性来分类的,每个词性下面的例句提取到该词性下

1 个赞

对于我自己而言是增加实用性的

楼主这本词典里有词性数据吗,好像有的句子还不是从词典里取的

1 个赞

楼主这本是没有的,只不过不知道楼主的元数据有没有区分,如果没有的话我单独把五大esl词典提取一下,不会搞像楼主那么宏大的工程,太辛苦了,而且还要在楼里被人怼,,

3 个赞

楼主非常仗义,不像有的人在其他论坛卖钱 :unamused:

3 个赞

Motrix倒是可以速度不错呵呵,以后就用他来下载贵站资源
超大文件idm等有时候下载不成功速度慢等

SIO的全称是什么?

楼主精神可嘉,但制作的这个词典很让我失望。
词典中一个单词下选用的例句,不仅可作为该单词的例句,还可以为句子中非本词条的其他任何单词作例句。一个朴素的想看到更多例句的想法便是,查某单词时不仅看到该单词下的例句,而且看到其他单词下包含该单词的例句。然而本词典并非达到前述我所想的功能,它仅仅是将某个单词在各个词典下该单词下的例句简单进行汇集。这有必要吗?我同时打开多部词典MDX词库不就达到目的了吗?楼主将这么多例句脱离原词典的义项简单堆积,读者无法一眼看出特定例句中该单词应该取哪个义项,效果大打折扣,还不如直接看同时打开的多部词库呢。

1 个赞

你不去隔壁开个贴评论那个做反查词典的可惜了。

2 个赞

我不接受您对我的讽刺!因为我认为我的失望有充足的理由。我的意思是,作者花费不少心血做这种简单堆砌原MDX词条下就有的例句词典,不如做成我所说的那种例句词典意义大得多。
作者既然能做出现在这种词典,则说明他完全已经有分析原MDX的HTML结构,萃取特定标签下例句的能力,他要是把刀用在刃上,做出我那种词典,从技术上并非要比现在这种词典多花很多气力,但意义大得多。
我并非是要对作者的默默付出嗤之以鼻不感谢他,而是感叹如果他将同样的时间去做我说的那种词典,会有更大的贡献(并非说现有的就不是贡献,只是花同样的时间本可以有更大的贡献)

从技术上讲,做我说的那种例句词典的步骤可归纳为:
(0)建立一个键值对数据结构Map(C#中称为Dictionary,每种语言有自己的叫法,但本质一样)。键即为词条(单词原型),值为一个集合,集合中每个元素为字符串,是一个包含该词条的例句。
(1)分析每部MDX的HTML标签结构,将例句标签中的例句用正则表达式萃取出来;
(2)以标点空格等非单词字符为分隔符,将将句子的每个单词萃取出来。
(3)考虑到单词词形的变化,应该事先有一份lemma词表,即通过形变单词对应到原型单词的表,这张表就是一个键值对数据结构。将萃取出来的每个单词作为键从lemma词表找到值,即原型单词word。
(4)查阅前述Map中是否有该原型单词word这个键,没有则加入该word键,同时初始化一个对应该键的集合,将word的例句加入该集合;如果Map中已有该原型单词word这个键,则查阅word对应的值集合中是否已经有该例句了(不同词典中,甚至同一部词典中不同词条下,有相同的例句并不罕见),有则什么都不做,没有则加入该例句。
(5)Map中数据填充完毕之后即可遍历该Map,将每一个键,键的例句集合中每个例句,用HTML标签包裹,按MDX的格式写入硬盘文件中
(6)对于某些特别常见的单词如the,it等可能会例句过多,所以可以限制一下每个单词的例句数量。
(7)减少程序内存占用的改进:对于前述第(0)步,因为例句中所有单词条目下都会有该例句,为减少Map的内存占用,可以将例句集合中元素由例句字符串本身改成例句的索引号字符串,而另外再开辟一个Map1用来存储真正的例句。Map1中键为索引号,值为例句字符串。如果这样引入Map1处理的话,为完成第(4)步,还需要开辟一个与Map键值对反过来的Map2,Map2中键为例句字符串,值为索引号(Map1和Map2键和值都无重复,键值对是一对一关系),通过查阅Map2是否已存在例句以及如果存在则查出已有索引号填充到Map1中。

—— 就这么简单!我已经在隔壁网站上发帖说过,做反查词典其实与之类似,就上面这么点玩意儿。对专业编程人员来说的的确确是没有任何技术含量,任何会使用高级语言正则库的程序员,我认为只要有一年工作经验(甚至根本就无需经验!)就应该可以独立做出来。
关键是你有没有时间去做。可以看出来,以上步骤关键在于第1步分析MDX词库HTML结构,找到包含例句的标签将例句萃取出来,其他步骤对哪部词典都是相同的。因为词典的HTML不是我们写出来的,所以只能靠观察,而观察往往就是不准确的,一则我们不可能穷尽观察词典中每一个单词中的例句,有时候规律观察不准不全;二则有的词典MDX就不规范,例句标签并非总是符合有限几个词条观察中得到的规律。
有时间我一定去弄弄这种例句词典。

1 个赞

隔壁做反查的不可惜,因为他们做的是有意义的工作。但千万不要把反查想象地有多高深。只要你会编程,看看我写得步骤,有时间你一定也能做出来反查词典或者例句词典。

1 个赞

支持技术性讨论,不过你好像有点误会了,楼主这本词典应该已经具备了一些你这里描述的功能,比如你说的例句来源不限于当前词头,另外,他也有一些不是来源于词典的例句

强烈建议大家不要参加“跑题”的讨论,明人一看就知道问题在哪里。有能力和有技术的可以直接另开新贴发自己的作品。

1 个赞

词典软件的全文搜索当然可以用来看例句,但与专门做的例句词典比有不足之处:
(1)速度慢
(2)我期望的词典软件显示效果是:查某个词的时候,先显示出该单词在我打开的各个词典中的词条解释,之后如果例句我感觉不够,再在当前显示之后“追加”全文搜索的例句,这样看全文搜索例句的时候我还可以参照前面已经打开显示的词典中词条的完整解释。而现在的词典软件显示有全文例句搜索时必须在一个新页面,之前打开的词库显示就消失了。你可能告诉我可以在新标签页打开,但不是什么词典软件都象GoldenDict那样可以打开新标签页同时保留原标签页显示,可以自如切换标签页的,而且如果换手机版词典,小屏更不可能切换。而自己做的例句词典本身就是一部MDX词库,不存在前述问题,只要上下滚动条就可以。
(2)可能搜索出来的结果并非词典中的例句,而是仅仅含有该单词的其他文字
(3)如果例句有中文翻译,不大可能将例句翻译也连带搜索出来,除非英文例句和中文翻译在同一个HTML 标签中。

而制作例句词典时会人工分析词典HTML结构,提取出来的例句和中文翻译自然准确完整。

2 个赞

等你弄出来后再评论吧!

2 个赞

我喜欢,很喜欢
现在我用这个网站的时候比linguee多

1 个赞

只能点赞,不能说不好,除非你做出了更好的,很熟悉的隔壁的味道