用OALDAE中的subject word list提取疑难用法手册

目标:
提高词典的利用率,带着特定的目的(阅读、口语、写作等)批量化查词。

成品:
sblist.pdf (844.3 KB)

工具:MdxConverter.py
材料:Ref_subject_word_lists.pdf (211.3 KB)
第一次提取MdxConverter总是报错,于是先用Mdict Editor Tool v2.0.36提取能提取到的单词:
out_keys.txt (953 字节)
然后用 MdxConverter.exe 1.mdx 5.txt sblist.pdf 生成pdf

测试过程见:


感谢@jns

疑点:本想直接用Mdict Editor Tool v2.0.36提取出来的txt改后缀名为html,然后wkhtmltopdf打印,但打印失败了,所有汉字变成乱码:
sblist.pdf (844.3 KB)
λ wkhtmltopdf.exe --enable-local-file-access swlist.html swlist.pdf
请教:
wkhtmltopdf 如何自定义字体

2 Likes

Nice work.

成品中目录结构好像有点问题。
我输出HTML,其目录倒是正常的。

是的, 目录是错的,本该平行的变成上下级。
其实转化为html的话对后续的使用更有利。
我试图实现的词典和笔记软件的融合,那么转化为html就能和chrome上的hypothesis等插件整合起来,构建个人词典knowledge base

现在的瓶颈是找到高质量的词表,尤其是写作的,口语的,适合中高层次的学习者的(初阶的材料多,而且也用不上这种专门提取的词典)。