【已完结】 SIO双向双解词典v3.3

就是词性,动词形容词名词那种,我看欧路词典本身的例句也是按照这个来分的,我觉得做的不错

再分,实用性不大。

根据什么去判断词性

1 Like

学习型词典都有词性分类啊,我做那个牛津例句提取就是按照词性来分类的,每个词性下面的例句提取到该词性下

对于我自己而言是增加实用性的

楼主这本词典里有词性数据吗,好像有的句子还不是从词典里取的

楼主这本是没有的,只不过不知道楼主的元数据有没有区分,如果没有的话我单独把五大esl词典提取一下,不会搞像楼主那么宏大的工程,太辛苦了,而且还要在楼里被人怼,,

1 Like

楼主非常仗义,不像有的人在其他论坛卖钱 :unamused:

1 Like

Motrix倒是可以速度不错呵呵,以后就用他来下载贵站资源
超大文件idm等有时候下载不成功速度慢等

SIO的全称是什么?

楼主精神可嘉,但制作的这个词典很让我失望。
词典中一个单词下选用的例句,不仅可作为该单词的例句,还可以为句子中非本词条的其他任何单词作例句。一个朴素的想看到更多例句的想法便是,查某单词时不仅看到该单词下的例句,而且看到其他单词下包含该单词的例句。然而本词典并非达到前述我所想的功能,它仅仅是将某个单词在各个词典下该单词下的例句简单进行汇集。这有必要吗?我同时打开多部词典MDX词库不就达到目的了吗?楼主将这么多例句脱离原词典的义项简单堆积,读者无法一眼看出特定例句中该单词应该取哪个义项,效果大打折扣,还不如直接看同时打开的多部词库呢。

1 Like

你不去隔壁开个贴评论那个做反查词典的可惜了。

1 Like

我不接受您对我的讽刺!因为我认为我的失望有充足的理由。我的意思是,作者花费不少心血做这种简单堆砌原MDX词条下就有的例句词典,不如做成我所说的那种例句词典意义大得多。
作者既然能做出现在这种词典,则说明他完全已经有分析原MDX的HTML结构,萃取特定标签下例句的能力,他要是把刀用在刃上,做出我那种词典,从技术上并非要比现在这种词典多花很多气力,但意义大得多。
我并非是要对作者的默默付出嗤之以鼻不感谢他,而是感叹如果他将同样的时间去做我说的那种词典,会有更大的贡献(并非说现有的就不是贡献,只是花同样的时间本可以有更大的贡献)

从技术上讲,做我说的那种例句词典的步骤可归纳为:
(0)建立一个键值对数据结构Map(C#中称为Dictionary,每种语言有自己的叫法,但本质一样)。键即为词条(单词原型),值为一个集合,集合中每个元素为字符串,是一个包含该词条的例句。
(1)分析每部MDX的HTML标签结构,将例句标签中的例句用正则表达式萃取出来;
(2)以标点空格等非单词字符为分隔符,将将句子的每个单词萃取出来。
(3)考虑到单词词形的变化,应该事先有一份lemma词表,即通过形变单词对应到原型单词的表,这张表就是一个键值对数据结构。将萃取出来的每个单词作为键从lemma词表找到值,即原型单词word。
(4)查阅前述Map中是否有该原型单词word这个键,没有则加入该word键,同时初始化一个对应该键的集合,将word的例句加入该集合;如果Map中已有该原型单词word这个键,则查阅word对应的值集合中是否已经有该例句了(不同词典中,甚至同一部词典中不同词条下,有相同的例句并不罕见),有则什么都不做,没有则加入该例句。
(5)Map中数据填充完毕之后即可遍历该Map,将每一个键,键的例句集合中每个例句,用HTML标签包裹,按MDX的格式写入硬盘文件中
(6)对于某些特别常见的单词如the,it等可能会例句过多,所以可以限制一下每个单词的例句数量。
(7)减少程序内存占用的改进:对于前述第(0)步,因为例句中所有单词条目下都会有该例句,为减少Map的内存占用,可以将例句集合中元素由例句字符串本身改成例句的索引号字符串,而另外再开辟一个Map1用来存储真正的例句。Map1中键为索引号,值为例句字符串。如果这样引入Map1处理的话,为完成第(4)步,还需要开辟一个与Map键值对反过来的Map2,Map2中键为例句字符串,值为索引号(Map1和Map2键和值都无重复,键值对是一对一关系),通过查阅Map2是否已存在例句以及如果存在则查出已有索引号填充到Map1中。

—— 就这么简单!我已经在隔壁网站上发帖说过,做反查词典其实与之类似,就上面这么点玩意儿。对专业编程人员来说的的确确是没有任何技术含量,任何会使用高级语言正则库的程序员,我认为只要有一年工作经验(甚至根本就无需经验!)就应该可以独立做出来。
关键是你有没有时间去做。可以看出来,以上步骤关键在于第1步分析MDX词库HTML结构,找到包含例句的标签将例句萃取出来,其他步骤对哪部词典都是相同的。因为词典的HTML不是我们写出来的,所以只能靠观察,而观察往往就是不准确的,一则我们不可能穷尽观察词典中每一个单词中的例句,有时候规律观察不准不全;二则有的词典MDX就不规范,例句标签并非总是符合有限几个词条观察中得到的规律。
有时间我一定去弄弄这种例句词典。

1 Like

隔壁做反查的不可惜,因为他们做的是有意义的工作。但千万不要把反查想象地有多高深。只要你会编程,看看我写得步骤,有时间你一定也能做出来反查词典或者例句词典。

1 Like

支持技术性讨论,不过你好像有点误会了,楼主这本词典应该已经具备了一些你这里描述的功能,比如你说的例句来源不限于当前词头,另外,他也有一些不是来源于词典的例句

强烈建议大家不要参加“跑题”的讨论,明人一看就知道问题在哪里。有能力和有技术的可以直接另开新贴发自己的作品。

The function of searching a word in whole dictionaries, is called “Full-text search”.

And with specific position or other need, you can use regex to strengthen your search.

You can type “Ctrl-Shift-F” to start full-text search if you use Goldendict on computer. Easy, peasy, Japanesey.

And since full-text search need huge calculation power, is usually a slow process, you may won’t wanna use it on weak-CPU-MEMORY equipped mobile-phone.

And the SIO, as like a corpus when I use it. And also, it works more powerful, without full-text search, you can simply search the word in all sentence, same function like full-text search! But less time needed!!! I guess it stored the process of full-text search, which means, it include lots of index of the thousands words to every sentence…

here, searching the word: paramount, and the word: domain’s sentence is also listed.

So, did you even try it once…

1 Like

词典软件的全文搜索当然可以用来看例句,但与专门做的例句词典比有不足之处:
(1)速度慢
(2)我期望的词典软件显示效果是:查某个词的时候,先显示出该单词在我打开的各个词典中的词条解释,之后如果例句我感觉不够,再在当前显示之后“追加”全文搜索的例句,这样看全文搜索例句的时候我还可以参照前面已经打开显示的词典中词条的完整解释。而现在的词典软件显示有全文例句搜索时必须在一个新页面,之前打开的词库显示就消失了。你可能告诉我可以在新标签页打开,但不是什么词典软件都象GoldenDict那样可以打开新标签页同时保留原标签页显示,可以自如切换标签页的,而且如果换手机版词典,小屏更不可能切换。而自己做的例句词典本身就是一部MDX词库,不存在前述问题,只要上下滚动条就可以。
(2)可能搜索出来的结果并非词典中的例句,而是仅仅含有该单词的其他文字
(3)如果例句有中文翻译,不大可能将例句翻译也连带搜索出来,除非英文例句和中文翻译在同一个HTML 标签中。

而制作例句词典时会人工分析词典HTML结构,提取出来的例句和中文翻译自然准确完整。

1 Like

if you mean this style, that need more processing data of classifications of words, since the original one sentence has only one mark information of one word’s explanation

and yes, if you compare anything to a perfect status, or personal goal, you will get a unperfect conclusion

but think about that, with existed data, sio has saved your time avoiding your fulltext search in some degree and free for you, which we should thank back instead personal judging

and also, in mobile app platform,比如说dicttango,是可以设置弹出小窗口进一步解释某个新的词条,当然可也可以进一步解释旧词条,当然可能需要你再次展开选择 sio,我印象里是这样,但是我没尝试,因为手机上我没用sio。

你的不满来自于交互设计,而不在于字典,你更希望句例作为词典单位的插件的热响应而非单独的词典,那么这个功能我想应该是词典软件是否支持的功能,外挂进行特殊小窗口展开相关词条的句例部分。但其实无非是你多点一下再次查词选择sio进行句例的查看啊。

剩下的中文反查部分我不太明白你的需求,总之你的需求很精简很频繁很刚需的话,你应该联系作者私底下进行商业定制。。。因为这部分价值你比较看中,说明你特别需要。而且这种商业定制的外挂的交易的合法性受不受法律保护会不会被制裁看你具体操作了。

在sio之前,反查也好,里据搜索也好,是很浪费用户时间的,sio帮助我节省了全文搜索的时间,节省了下载多个词典反查的时间,所以我从我的角度给这个帖子下一些人的疑惑一些解释和看法。

论专业,或者动辄把人的事和作品进行和最专业水平的,完美状态,个人非常私人的需求进行对比,而说一些不够好的话,就像你刚刚升了中层管理你老婆埋怨你说你反正也不如美国总统,你刚做好了菜你老婆来一句肯定比不上大厨。

你可以单独开个贴分享一下更好的想法,设计,以及可能的话把它制作出来。

3 Likes