Mdx源文件新格式,讨论下

abatement
<div class="grambhead">
	<span class="ps pos">
		<span class="pos">noun</span></span>
	<span class="frequency freq5"></span>
	<span class="pron inline">
		<a class="phoneticSymbol" addr="/en/mp3/abatement_gb_1.mp3">əˈbeɪtm(ə)nt<span class="pronLogo"></span></a>
		<span class="pronunciations"></span>
		<span class="phoneticRegion us"></span>
		<a class="phoneticSymbol us" addr="/en/mp3/abatement_us_1.mp3">əˈbeɪtmənt<span class="pronLogo"></span></a>
	</span>
</div>
</>

转写为这样是不是清晰不少

abatement
<d.gh
	<s.ps.pos <s.pos noun > ><s.freq5 ><s.pr.inl <a.ps əˈbeɪtm(ə)nt ><a.ps.us əˈbeɪtmənt > >
	<d.ex />
/>

要求新格式方便按规则复原

语义化,XML格式。存储容器的格式变化,颇像记号文件。

是很类似记号文件,正则的时候可能不好处理。

这种新的看起来像是简写 ,不太懂 看的有点懵, 还是觉得 html 要合适一点,但如果下面的格式比上面的格式只是足够清晰 我感觉没有必要

2 个赞

不知道清晰具体是指哪方面? 这样的格式感觉有点类似代码的压缩混淆,可以减小文件体积,降低可读性。

这种简写不好还原,要么等楼主给现成的正则。简写里的标签命名不符合HTML的标准,很多现成的HTML处理的库估计用不了。

思路来源: markdown还是不够用比如加class

  1. 快捷输入HTML 代码(Emmet 插件
  2. 借鉴了css写法,并简化class类名
    既不是不是html也不是XML,哈哈

首先,链接<a.ps əˈbeɪtm(ə)nt > 不允许嵌套,还原可用正则
再可考虑引入 <e.pr abc >,不允许嵌套,还原为< e m class=“pr”>abc< /e m>

span标签部分头尾分开用正则,简写时干脆省去s.变为 <.ps 字符替换为< span class=“ps”>
闭合标签用正则,所有 > (前面非a|m|/)替换为< /span>
最好严格点小于号>前面带个空格 ,div的闭合符号/>最好也是前置空格 />

<d.xyz /> 字符直接替换为< div class=“xyz”>< /div>

初步看还原还是简便可行的

优点:适合自己用文本编辑器 编辑小型自定义词典,
可以为以后转化html, 看起来也比xml 清晰
在EmEditor 里设置下把<.xxx >等淡化显示后,应该 主体文本还是很突出的

转换进和转换出一般都采用正则,仅仅是作为中间过渡格式而已.采集和解释前依旧采用传统DOM
缺点也很明显,中间格式毫无规范,重新组合数据时得转出再转入

1 个赞

如果要用新格式,现有的那些词典要怎么处理?

我的需求是想柔和几本词典的例句,所以想找一种新格式 方便看源文件

其实这东西实现起来都得写代码,我自己不会python,只是会一些autohotkey脚本
等思路成熟点写个小脚本试试

1 个赞

从例句看词条解释吗?

找一本理想的词典为主体,把其他词典例句柔和进去
估计是个伪命题,难度和工作量非常大

例句要根据义项整理吗? 直接罗列的话估计比较乱,使用效果相对也没那么好。但要将例句对应到不同释义,多个词典要实现释义对应的自动化,会相当困难吧?

每一本高阶说实话都很不错,收集了太多词典,查个词每个词典都看一遍,都可以看好多页书一样
得把精华集合在一起,每个例句按词性义项做些标记
最好是人工最后检验过,就当是学习过程,得众筹…,不了了之,哈哈

1 个赞

有点类似反查词典了。