MdxScraper:从MDX字典提取内容并输出为PDF、HTML或JPG

经常需要将特定词条的查询结果批量导出并打印,特对 MdxConverter 做了改造加强。

下载:

页面右侧有 Releases 可以下载:GitHub - VimWei/MdxScraper: Extract specific words from an MDX dictionary and generate PDF, HTML, or JPG files with ease.

改进之处:

  1. 支持同一个页面多次重复引用同一图片的情形(词典中的读音图标多次出现的情形很常见)。
  2. 增加对jpg、jpeg、gif等图片的支持,原程序只支持png图片。
  3. 兼容img标签的各种写法,原程序只支持一种,因此也就兼容各种词典情形。
  4. 兼容无CSS文件的词典。
  5. 增加PDF输出时排版的多个常见配置选项,让用户更加自由定制。
  6. 升级mdict-query使其支持多mdd的词典,并内置到项目中,无需单独安装。
  7. 以当前时间命名文件名,避免多次输出时覆盖原有的文件。

这些特性更新使本工具可兼容常见的词典了。

6 Likes

多mdd的支持,其实是在mdict-query.py文件里,需要从头理清原作者的思路。建议还是直接合并mdd更方便。

1 Like

Update:Release MdxScraper v1.1 · VimWei/MdxScraper · GitHub

  1. Enhancing Compatibility for Windows, Linux, and Mac.
  2. Implement ‘utf-8’ encoding for file handling to enhance compatibility.
3 Likes

正在学习 Python, 顺手把 mdict-query 改为支持多 mdd 查询了。
以下是测试代码:

def multi_mdd_test():
    mdx_name = '說文解字.mdx'
    mdx_name = Path(mdx_name)
    dictionary = mdict_query.IndexBuilder(mdx_name)
    css_key = dictionary.get_mdd_keys('\C0001*.png')[0]
    css = dictionary.mdd_lookup(css_key)[0]
    print(css_key)
    print(css)

改好的文件:
mdict_query.zip (3.5 KB)

3 Likes

感谢升级重大特性!我基于此发布了新版本 v2.0

1 Like