Tld词典重新排版,加入记住默认设置功能

lille不得不说是一部经典中的经典,但是我个人习惯用欧路软件,发现在查词时,像cutting和cut-ting这种词头会连在一起显示,而如果同样的单词同时存在大写和小写,又只会显示小写,不得已,强迫症的我把mdx重新排版了下,打包成eudic格式(欧路上只有这种格式支持每页只显示一个单词),然后加了类似朗文5那种多功能的js,css的排版走极简主义风格,中心思想是降低一切阅读负担,让读者一眼抓住所需要的重点信息。

目前仍然存在以下问题,但因个人原因,实在没有时间和精力完善下去了,希望论坛里的大神能够接力完善:

  1. COCA词频中的详细词频,在展开时,下面一行会闪动以下,应该是css哪里没调好,但我检查了很久没检查出来;

2.COCA词频的排序在原版中也不是冒泡排序的,应该是作者用js调整了冒泡排序,但是我不想用js来调整,js调整我总会担心如果多个词典联合查词时会出现卡顿现象(我十分厌恶这个),很想通过修改mdx来达到冒泡排序的效果,但是我bs4想了一天也想不出怎样冒泡排序,这点真的很希望论坛里的大神能帮忙解决一下,或者提供给我一点思路也行;

3.我本来想把文件打包成一份mdx,但是mdx打包时每次都闪退,不知道是什么原因,源文件已经上传到百度云里,需要的伙伴可以自己下载试着打包一下,看看会不会遇到我的问题,如果没有的话,希望也能上传一份到帖子里

功能啥的参考我朗文5排版的帖子,用法基本大同小异




链接:百度网盘 请输入提取码
提取码:r148

6 Likes

不建议在手机等场景使用,不仅空间占用大,而且对性能要求高,曾经在虚拟机中使用,转了半天没出来,彻底放弃。

它里边的东西都有对应的独立词典,而且版本还可以选择、升级。

1 Like

我现在想借鉴隔壁精简版的单词表弄一个精简版的

对了,为什么会对性能要求高呢,按理说它每次只展示一个单词,意味着只读取一行的文件文本,为啥会耗性能呢

1 Like

我使用GoldenDict,第一次安装该词典时,GD需要建立索引,不知道是什么原因,这一步卡壳很久还是过不去。

我百度云上传了个精简版的,你可以改成mdx打包试试,我用的是这个的

我看关于goldent的版本的说法有很多,我现在还搞不清楚除了官方版外别的版本之间的关系,但是我用这个链接里的goldent很流畅,你试试看

2 Likes

不了解词频。写了一段代码,将 .coca 子元素按 rank 值排序。没用冒泡排序法。

for coca in soup(class_='coca'):
    for pos in coca(class_='pos'):
        pos.insert_before(soup.new_tag('sepp'))
    coca.append(soup.new_tag('sepp'))

    ranks = [int(rank.string) for rank in coca(class_='rank')]

    for rank in sorted(ranks):
        spra =coca.find(class_='rank', string=str(rank))
        sepp = spra.find_previous_sibling('sepp')
        for sepn in sepp.find_next_siblings():
            if sepn.name == 'sepp':
                break
            coca.append(sepn.extract())

for sepp in soup('sepp'):
    sepp.decompose()
2 Likes

多谢!我试试看!

部分跟我的思路有点像!

更正:加了个判断,选择 .coca 时,把 .coca.iweb 排除掉。

感觉不用排除,可以一起改

不过我的要换一下class,因为我把pos这些标签全部改成了表格标签,这样子对齐很方便

哈哈,我每次添加一个词典都是默认GoldenDict一定要建索引几分钟的,期间、之前不能查词不然闪退。。保持操作逻辑的简单性,毕竟软件考虑不到的边边角角,人要适度的妥协下。

2 Likes

为啥你们的golden都好慢哦,我这个索引最多是little,大概二十秒左右,是我下错了版本吗…

机器 RedmiBook Pro 15,i5-11300H,内存16G,Ubuntu,Goldendict的Qt浏览器引擎分支,Github上的

以朗文5为例子,全文搜索的索引的初始化过程持续了3分钟左右,CPU虚拟的8线程1个占满,想来很省电。。。就是有点费时间,也懒得去翻文档怎么配置了

可能你机器更加奢侈点。。或者欧陆更商业算的更快?

1 Like

哦,对了!!!

这个TLD的单词对应的自身单词表的频率排行、领域使用频率、义项频率分布是真好用,发音也超级强大的兜底。这是优点的部分。

可它的所有信息原始应该是英文的啊,词典的作者只让显示中文,多一道转换,而且还是简单的一词对一词,一个原始词的信息集合对应的意义就偏颇的很厉害。。当时因为这点把它删了。。

对了GoldenDict版本:1.5.0-RC2+git,Based on Qt 5.15.3 (GCC 11.2.0, 64 bit),印象里是你之前发帖中的链接推荐的那个GitHub仓库里的QT 浏览器引擎的版本

明显不是一个。

1 Like

我又重新sudo apt install goldendict,ubuntu官仓的老版本

加载TLD的索引花了26分钟。。。。。。。。。。。单线程的goldendict,两个CPU2和CPU6线程来回切换,羡慕20秒=.=

用TLD有个好处,那就是那一排来自各种字典的发音听完后,对什么所谓标准发音就戒了。。而且不断的重复千变万化的读音和牛10朗6的例句发音,能够建立其共性的理解。当然成本就是4G的MDD文件们。。

呀!原来释义分布比例这个数据来自海词词典?

我说咋没有英文版的。。除了释义分布,根据语法位置、搭配词语的身份对单词的释义的分布等等都是不太好做的但有用的信息

单词、单词在段落、句子、从句中的释义的常用分布、判断方法,这个好多词典都不做。。只有简单的罗列123的个用法。为什么这么用,什么场合同样的意思用什么表达,统统需要其他专业领域词典、书籍、课程来补充。

我的机器是拯救者r7000具体啥配置忘了,几年前刚刚买的游戏本,但买回来就没空打过游戏…