应 @Linzertorte 的要求制作了本词典,由于yomitan格式需要进行复杂结构化,暂时没有处理,只制作了mdx版本。为了便于查找单独开了一帖
链接做了处理可以正常跳转
下载:
Italiano compatto.mdx (3.0 MB)
RAG2015.css (2.7 KB)
转换脚本和json数据:
convert_epub.py用于转换epub到json
gen_mdx_source.py用于转换json到mdx source
Italiano compatto.zip (3.4 MB)
epub文件:
2 个赞
您好,多谢分享, 希望能够把道兰图解医学词典电子书(道兰医学词典)第33版的epub格式转换为mdx,多谢了。Dorland's Illustrated Medical Dictionary 道兰图解医学词典
太感谢了。大体是什么样的结构化处理呢? 是说每个动词变形都要映射到动词原型吗?
不是,是要把xml的标签全转成json,符合这个说明文档的structuredContent,如果要保留css格式还要单独处理样式。
pyglossary支持转换mdx到yomitan,但是会转为纯文本丢失格式信息。
另外发音也是比较麻烦的,有中间带标签的特殊情况,要正则匹配。
这个我看了下稍微改一下脚本就可以,但子词条有很多问题比较麻烦,如果不考虑浏览主词条时也可以同时显示子词条就很简单。