你这么一说还真是,恼火这个词 可能是川渝那边用得比较多些哈
嗯,不晓得其他地方有没有这个词,不过川渝地区是用得最多的。
你这句话最后一个哈字也是川渝人爱用的
,我感觉这个哈字有种需要别人确定的语气,类似于日语中的ね,不过我也没啥数据支持,纯粹我个人的猜想和感觉。
列下 MDX 已知的问题:
- 缺乏辅助索引:汉语拼音被完全忽略,外语学习者被直接放弃;日语则把假名当作主索引,在同音字多的时候会加载很多不相关的词条。
- 缺乏变音符号支持:目前仅有 ASCII 大小写忽略,对法语、西班牙语、越南语等含变音符号的语言极不友好,特别是越南语完全不可用。
- 缺乏内容校验:打包工具不检查词条 HTML,出现问题时无论是作者还是开发者都难以判断来源,脚本兼容性更无从谈起。
- 缺乏结构化数据:词条内容完全是 HTML,没有字段、没有语义结构,无法做义项和例句的精确检索、无法做跨词典统一展示,也无法支持现代词典所需的变形、同义词、词性等结构化信息。
- 版本管理失控:文件本身没有唯一的编号,没有版本约束,MDX 与 MDD 也没有强绑定,常出现新版配旧资源、多个 MDD 互相覆盖、外部资源路径失效等混乱情况。(建议使用单文件,大文件可以区分有声版和文本版。
希望新的格式能解决上述问题。
mdx只是个载体,你想让他完美无缺或者十八般武艺样样精通不现实,世上任何一个东西想找缺点都能找到
上面这 5 个已知的问题技术上完全能解决,我只是觉得生态已经挤满了,推广困难所以没有做。
这些确实是问题,但解决起来谈何容易!在没有利益驱动的情况下(至今mdx属于完全免费使用),谁来做呢?而且我曾说过的,即使有了更完善的结构,但词典源文件从哪里找?
我认为只有一个问题就是推广,用户的需求已经基本满足了,其他都是小问题。
1 2 实现应该不难,不过还得要词典软件“配合”,mdx(2.0)的索引似乎(只?)是针对程序内部的,词典软件都拿到所有词条名自己一套处理补全 模糊 啥的逻辑
3 html js css 的合法性能解决最好,各种奇葩的html,span里套div的,其他自定义元素的,甚至用元素改名实现某种特性的。关键还不少词典还有很多,真要仅允许完全合法的html不知改这些能不能改得过来,还有js,现有的更是一坨了
4 实现不难,但可能并那么好 或者说 例外或不常用的会“干扰” ,我自己整得词典都搞得一般,搞个音标吧,不同变形不同词性还不一样;搞个短语 同近义 同根 词 表,释义里套个例句,短语里套个近义词,同根词里套个辨析……比想象的复杂的多,总之尽力解决吧
5 也是个问题,mdd就只充当个“压缩包”的作用,只存文件,不少词典都用mdd里的css判断是否有mdd,这个修改了css那个添加了资源,也确实挺乱的
现在畸形的词典也挺多的,比韦氏大学,跟其他词典都不一样。制作的时候想要提取关键内容也很困难。
这个15G的mdx,由111G数据分10MB块压缩得来,改用zstd可压缩到8G(窗口大小=4MB时)
mdx v2 只支持lzo和zlib压缩,前者压缩率相对不高但解压很快,不常用,后者压缩率更高但解压慢点。数据被分块压缩,解压速度只要不是可感知的慢就没影响,块分得大了,zlib的压缩率就不够看了