abatement
<div class="grambhead">
<span class="ps pos">
<span class="pos">noun</span></span>
<span class="frequency freq5"></span>
<span class="pron inline">
<a class="phoneticSymbol" addr="/en/mp3/abatement_gb_1.mp3">əˈbeɪtm(ə)nt<span class="pronLogo"></span></a>
<span class="pronunciations"></span>
<span class="phoneticRegion us"></span>
<a class="phoneticSymbol us" addr="/en/mp3/abatement_us_1.mp3">əˈbeɪtmənt<span class="pronLogo"></span></a>
</span>
</div>
</>
转写为这样是不是清晰不少
abatement
<d.gh
<s.ps.pos <s.pos noun > ><s.freq5 ><s.pr.inl <a.ps əˈbeɪtm(ə)nt ><a.ps.us əˈbeɪtmənt > >
<d.ex />
/>
要求新格式方便按规则复原
hua
2
语义化,XML格式。存储容器的格式变化,颇像记号文件。
这种新的看起来像是简写 ,不太懂 看的有点懵, 还是觉得 html 要合适一点,但如果下面的格式比上面的格式只是足够清晰 我感觉没有必要
2 Likes
不知道清晰具体是指哪方面? 这样的格式感觉有点类似代码的压缩混淆,可以减小文件体积,降低可读性。
这种简写不好还原,要么等楼主给现成的正则。简写里的标签命名不符合HTML的标准,很多现成的HTML处理的库估计用不了。
思路来源: markdown还是不够用比如加class
-
快捷输入HTML 代码(Emmet 插件
- 借鉴了css写法,并简化class类名
既不是不是html也不是XML,哈哈
首先,链接<a.ps əˈbeɪtm(ə)nt > 不允许嵌套,还原可用正则
再可考虑引入 <e.pr abc >,不允许嵌套,还原为< e m class=“pr”>abc< /e m>
span标签部分头尾分开用正则,简写时干脆省去s.变为 <.ps 字符替换为< span class=“ps”>
闭合标签用正则,所有 > (前面非a|m|/)替换为< /span>
最好严格点小于号>前面带个空格 ,div的闭合符号/>最好也是前置空格 />
<d.xyz /> 字符直接替换为< div class=“xyz”>< /div>
初步看还原还是简便可行的
优点:适合自己用文本编辑器 编辑小型自定义词典,
可以为以后转化html, 看起来也比xml 清晰
在EmEditor 里设置下把<.xxx >等淡化显示后,应该 主体文本还是很突出的
转换进和转换出一般都采用正则,仅仅是作为中间过渡格式而已.采集和解释前依旧采用传统DOM
缺点也很明显,中间格式毫无规范,重新组合数据时得转出再转入
1 Like
我的需求是想柔和几本词典的例句,所以想找一种新格式 方便看源文件
其实这东西实现起来都得写代码,我自己不会python,只是会一些autohotkey脚本
等思路成熟点写个小脚本试试
1 Like
找一本理想的词典为主体,把其他词典例句柔和进去
估计是个伪命题,难度和工作量非常大
例句要根据义项整理吗? 直接罗列的话估计比较乱,使用效果相对也没那么好。但要将例句对应到不同释义,多个词典要实现释义对应的自动化,会相当困难吧?
每一本高阶说实话都很不错,收集了太多词典,查个词每个词典都看一遍,都可以看好多页书一样
得把精华集合在一起,每个例句按词性义项做些标记
最好是人工最后检验过,就当是学习过程,得众筹…,不了了之,哈哈
1 Like