delete_______

ubersoft · 2020 年9 月 5 日 03:21

（帖子被作者删除，如无标记将在 24 小时后自动删除）

hua · 2020 年9 月 5 日 03:36

不同词典的标签，class 属性值都不一样，怎么实现这个呢？

hezhudao · 2020 年9 月 5 日 03:49

感觉是一个浩大的工程，相当于做两件事：第一制定一个规范；第二实现一个规范。如果能完成，那必定是巨大的贡献。

hua · 2020 年9 月 5 日 03:53

我是说，现有数据很多都是来自网站，而网站的数据是已经生成好了的。

你的规范的数据结构怎么去规范不同的网站数据呢？

hua · 2020 年9 月 5 日 04:01

这就是强制制作者洗一遍数据。我预感难度很大。

hua · 2020 年9 月 5 日 04:11

为什么不洗数据呢，这就是mdx成功的原因——简单。

Mandolin · 2020 年9 月 5 日 04:50

支持，技术上我不懂，从需求和使用上来说希望能支持/具备这些功能/特性：

尽量让词典制作更加简单。这样能让更多的非技术人员也能上手学习制作，这对词典社区的扩张和持续的生命力有百利而无一害。
能轻易自定义字体。这对解决特殊字符和生僻字有好处，也方便喜欢自定义字体的朋友。
希望能支持 LaTeX。这对不少理工科词典的文本化有好处。

n_ogizaka46 · 2020 年9 月 5 日 07:13

提取JSON这块没明白，像提取 MWU2020这种数据困难吗？现在清洗数据还是用正则。

endnote · 2020 年9 月 5 日 08:07

这个论坛讨论过多次了，因为大家都对mdx由于没有统一规范而产生的问题（有打包工具环节、也有词典软件环节的）深感不便。

这么多讨论下来，感觉步子迈的越小越好，渐进式改进。因为见过太多过于宏大的计划要么搁浅（工作量太大），要么没反响（技术过于脱离现状）。最大的建议，要方便刚刚入门的新手从抓下来的HTML网页制作成词典。一个圈子门槛过高，来来去去之后如果缺少新鲜血液的加入，那肯定不会有多少活力，而最终归于沉寂。

个人之前观点参见

己亥年闲话

并不是说不需要改进mdx不透明的打包方式，也就是说可以设计一种新的开源打包方式：
1、继续采用Web技术（HTML+CSS+JavaScript），最好跟现有mdx打包前的源文本一样，把规范表述清楚全面。因为各大词典上线网页是这个结构，app数据底层也是，这大大方便了电子词典的爬虫转换制作，而且也降低了一般人修改完善词典的门槛。
2、提供新的、开源方便的打包解包工具。
3、新的打包格式需要goldendict等软件支持。
4、要能解决mdx现有的痛点以吸引用户。比如，可以方便导出某词条内容（源文本及相关js & css）、方便修改某词条内容的编辑功能（错别字）、方便手动增加词条间跳转功能（也是一种编辑），等等。

MDX词典制作工具研究[长期施工]

关于统一样式这一点，我曾经也想把常用字典的外观统一起来（当然改css是上手难度低花费时间长的做法），随着对词典认识的加深，现在已经放弃这个强迫症了。原因：
一是各家大词典的编撰理念不同，词条内容独具特色，如牛津高阶的Which Word? / word finder / Homophones / See also / Vocabulary Building / More Like This / British/American等等等等栏目，导致其HTML标签的数量繁杂差异很大，很多标签是独有的。
二是样式多样化不是坏事。用多了之后，查阅词条一眼即可辨别是来自于哪一部词典，这个词典的特色长处是什么、这些地方需要特别多加关注。所以说，有区分度后查阅效率可能会更高。
当然，原始网站的css排版往往很难看，这时候选择你看得顺眼的网友改版css、在其基础上做微调是最省时间的。希望能把自己的时间用在刀刃上。

目前的一大痛点是，现有mdx打包工具writemdict（或基于writemdict的mdict-utils）的排序缺陷

这些帖子还有其他人的真知灼见，不妨看一下。

hua · 2020 年9 月 5 日 08:12

因为你繁琐的转换做在前面了。。

hua · 2020 年9 月 5 日 08:19

A 词典例句在 <div class='liju'></div> 里面， B 词典例句在 <p class='ex'></p> 里面。C 词典例句在 <span></span> 里面。

last_idol · 2020 年9 月 5 日 11:30

楼主和我刚入圈时的想法差不多，浪费了我很多精力，新格式确实要有，但一定和 mdx 类似。

部份词典的结构已经修乱了，还有如oed，mwu这样的大型词典，分析 html 结构定义 json都很困难。

渲染模板有个兼容性的问题，科普也是个问题。

实时编辑我认为是伪需求，文本编辑器+正则，已经被那些词典大佬们，用的出神入化了。

有多少人参与是个问题，词典真是个很小的圈子，都还各有所爱。

last_idol · 2020 年9 月 5 日 12:30

常用的模板渲染引擎都试过，像vue，jinja2 在goldendict qt5上报错，handlebars 在 qt4 上报错，如果要输出静态 html 导出别的格式，前后端渲染的api还有兼容性差异问题，有些特性，后端不支持，比如jinja2的各种 filter，给用户科普这些差异也很麻烦。

如果真考虑做这块，推荐最简单的mustache，ie7也支持。

last_idol · 2020 年9 月 5 日 12:50

很怀疑。oed 这种，程序怎么分析？提取 json，是你后面所有一切的大前提。

endnote · 2020 年9 月 5 日 12:57

我觉得讨论这些问题，有时候有点像在思考开源项目和社区的成败得失、正反经验哈。

MdxBuilder 3.0 确实容错性很强，听说有些txt用其他开源工具编译失败但用官方的可以成功编译。

不过，其同key词条排序确实很有问题。
比如两个key均为elder的两个词条，在 txt 原文本中的顺序为

编译后查询elder显示为

这种情况的出现不止一个key如此，而且貌似是随机的。在对别的词条进行编辑后，下次再编译成mdx，这个elder的顺序有可能又正常了或者仍然不正常。

这种情况一种不是解决方法的办法见

random · 2020 年9 月 5 日 13:16

这个想法不错，不需要懂技术即可把json 转成 html

last_idol · 2020 年9 月 5 日 13:22

没想过 GUI 可以这么搞，感谢指教。如果这一步实现，后面所有词典都可以这么来，那就是造福社区了。

n_ogizaka46 · 2020 年9 月 5 日 13:47

期待楼主大作！

Vim · 2020 年9 月 5 日 16:35

mdict-utils 已经解决这些问题了