【2020.8.16】GoldenDict-2A11 - Tesseract+ OCR划词完美版 - macOS / Linux / Windows

问题出在哪?可能是我比较愚笨,看不出来。:pleading_face:第一张明明比第二张图显示正常的呀?

2A02版出bug了,不是词典编码问题。


词典: https://pan.baidu.com/s/1RqCaHw_ZrWP5lPknBEAiRA 提取码: dki9

是MDX,样式在HTML里写死了

明白了,谢谢。:blush:

style属性是HTML标准,但是现在内容与样式分离的趋势下,反而是不受推荐的。font标签同样。
mdx太依赖HTML和浏览器,所以这样那样的问题也多。

感谢no大持续更新。

现在的各种打包工具制作的mdx基本上是以GoldenDict支持为标准的吧?是不是就视同为mdx开源标准了?反倒是官方最新的加密mdx格式用的人不多

重建索引之后还是这样子

我下载了a大的词典,新增的词典索引是重建的,也是存在那个问题

因为加密只有mdict能用,而大部分人用的都是欧路/深蓝/goldendict都不支持加密。

搞错了点东西。compact html的style文件在新版mdict(mdxbuilder4.0)里不受支持了,不过这个compact html是个什么标准我还真不知道。

重建了好几遍还是乱码。

我重建了也是乱码

·····································

好的,我还下载不下来,我这网络不行,要用手机3G下载,仅仅2兆多一点,宽带下载不动.

系统是简体中文的,我试过把源文件改utf8另存,也没用。新版今天没时间测了。

引起你说乱码的的字典就是贴图下边给出的教育部的那个字典?我可以下载了尝试尝试么?

mdxbuilder打包工具好像也是官方提供的,不开源。设计良好的xdxf格式如果越来越流行当然是好事。
好在现在分享的mdx都能解开看到原始的HTML文本,而且也有多种格式互转的工具,如GitHub - ilius/pyglossary: A tool for converting dictionary files aka glossaries. Mainly to help use our offline glossaries in any Open Source dictionary we like on any modern operating system / device.
Octopus Mdict Source 就是 生成 MDX 之前的 txt 源文件

确实,end user只关心看到的内容。所以我觉得目前瓶颈不在于词典格式,而是之前持续二十多年的浏览器战争后遗的各种兼容性问题。

我的也是简体中文的系统。明天再试试您的新版,谢谢!

一种事物之所以能够广泛流行应用,很大程度上是多个因素的共同作用,并不单纯是技术上的可取之处。

简单分析一下,可以粗略把这些因素分为需求面和供给面两大类,以mdx / xdxf 等新旧词典格式为例:
需求面,新格式的技术优势是否解决了需求方即end user对于产品即词典的痛点?有多痛?
供给面,采用新格式后,对词典的供应商门槛、制作成本有多大影响?

至少目前来看,现有mdx这种设计方便普通人制作词典,或者只是修改更新css(这个我个人觉得也很重要,一个排版很难看的词典版本没太大兴趣去用,因为有太多替代品),因为只需要HTML/css知识,调试环境有在线网页即可。
如果采用新格式后,制作门槛大为提高,能参与的只有高手,那这种格式也流行不起来。当然,以后如果各种条件具备,xdxf甚至markdown都有可能替代mdx。(澄清一点,在我看来,mdict 4.0也是一种新格式,对其没兴趣也不看好。现在公开制作分享、能看到源码、而且有众多解包打包工具的mdx,已经可以算是一种开源的格式了)

https://gist.github.com/atauzki/09785bc84b06c8cc8e9b626d224e481b