Mdx源文件新格式,讨论下

lemonlab · 2021 年8 月 31 日 21:02

abatement
<div class="grambhead">
	<span class="ps pos">
		<span class="pos">noun</span></span>
	<span class="frequency freq5"></span>
	<span class="pron inline">
		<a class="phoneticSymbol" addr="/en/mp3/abatement_gb_1.mp3">əˈbeɪtm(ə)nt<span class="pronLogo"></span></a>
		<span class="pronunciations"></span>
		<span class="phoneticRegion us"></span>
		<a class="phoneticSymbol us" addr="/en/mp3/abatement_us_1.mp3">əˈbeɪtmənt<span class="pronLogo"></span></a>
	</span>
</div>
</>

转写为这样是不是清晰不少

abatement
<d.gh
	<s.ps.pos <s.pos noun > ><s.freq5 ><s.pr.inl <a.ps əˈbeɪtm(ə)nt ><a.ps.us əˈbeɪtmənt > >
	<d.ex />
/>

要求新格式方便按规则复原

hua · 2021 年9 月 1 日 00:30

语义化，XML格式。存储容器的格式变化，颇像记号文件。

last_idol · 2021 年9 月 1 日 03:22

是很类似记号文件，正则的时候可能不好处理。

青稚Quentin · 2021 年9 月 1 日 05:17

这种新的看起来像是简写，不太懂看的有点懵，还是觉得 html 要合适一点，但如果下面的格式比上面的格式只是足够清晰我感觉没有必要

depgreen · 2021 年9 月 1 日 07:34

不知道清晰具体是指哪方面？这样的格式感觉有点类似代码的压缩混淆，可以减小文件体积，降低可读性。

last_idol · 2021 年9 月 1 日 09:12

这种简写不好还原，要么等楼主给现成的正则。简写里的标签命名不符合HTML的标准，很多现成的HTML处理的库估计用不了。

lemonlab · 2021 年9 月 1 日 10:03

思路来源: markdown还是不够用比如加class

快捷输入HTML 代码(Emmet 插件
借鉴了css写法,并简化class类名
既不是不是html也不是XML,哈哈

首先,链接<a.ps əˈbeɪtm(ə)nt > 不允许嵌套,还原可用正则
再可考虑引入 <e.pr abc >,不允许嵌套,还原为< e m class=“pr”>abc< /e m>

span标签部分头尾分开用正则,简写时干脆省去s.变为 <.ps 字符替换为< span class=“ps”>
闭合标签用正则,所有 > (前面非a|m|/)替换为< /span>
最好严格点小于号>前面带个空格 ,div的闭合符号/>最好也是前置空格 />

<d.xyz /> 字符直接替换为< div class=“xyz”>< /div>

初步看还原还是简便可行的

优点:适合自己用文本编辑器编辑小型自定义词典,
可以为以后转化html, 看起来也比xml 清晰
在EmEditor 里设置下把<.xxx >等淡化显示后,应该主体文本还是很突出的

转换进和转换出一般都采用正则,仅仅是作为中间过渡格式而已.采集和解释前依旧采用传统DOM
缺点也很明显,中间格式毫无规范,重新组合数据时得转出再转入

abs · 2021 年9 月 1 日 14:16

如果要用新格式，现有的那些词典要怎么处理？

lemonlab · 2021 年9 月 1 日 14:23

我的需求是想柔和几本词典的例句,所以想找一种新格式方便看源文件

其实这东西实现起来都得写代码,我自己不会python,只是会一些autohotkey脚本
等思路成熟点写个小脚本试试

abs · 2021 年9 月 1 日 14:27

从例句看词条解释吗？

lemonlab · 2021 年9 月 1 日 14:29

找一本理想的词典为主体,把其他词典例句柔和进去
估计是个伪命题,难度和工作量非常大

depgreen · 2021 年9 月 1 日 14:53

例句要根据义项整理吗？直接罗列的话估计比较乱，使用效果相对也没那么好。但要将例句对应到不同释义，多个词典要实现释义对应的自动化，会相当困难吧？

lemonlab · 2021 年9 月 1 日 14:57

每一本高阶说实话都很不错,收集了太多词典,查个词每个词典都看一遍,都可以看好多页书一样
得把精华集合在一起,每个例句按词性义项做些标记
最好是人工最后检验过,就当是学习过程,得众筹…,不了了之,哈哈

abs · 2021 年9 月 1 日 15:13

有点类似反查词典了。