哪位大佬能从mdx文件中提取出txt目录文件？谢谢

开心每一天 · 2026 年2 月 9 日 12:08

哪位大佬能从mdx文件中提取出txt目录（或详细词条书签）文件？需要这个文本目录进行统计，有没有什么软件能反向提取呢？或者提供该文件的目录（词条-页码）txt也可以，非常感谢！

winn · 2026 年2 月 9 日 14:25

没看明白你需要的是什么。如果你对 mdx 不熟悉，请配图说明你需要的是什么，哪些内容。图越详细越好。

开心每一天 · 2026 年2 月 9 日 15:01

谢谢回复，是需要这个mdx中的书签索引（含词条-页码）txt文件（一般制作词典mdx都需要扫描文件和书签索引），我需要的是那个单独的书签索引文件，主要用来做统计。请问怎么提取出来呢？
文件在这里：链接：百度网盘请输入提取码
提取码：cn2a

winn · 2026 年2 月 9 日 15:14

如果要左边的列表，找个 mdx 解包软件解包就可以了。

开心每一天 · 2026 年2 月 9 日 18:15

就是左边的这个，哪里有解包软件呀？有具体的名称么？

ageback · 2026 年2 月 10 日 01:02

虛詞詁林_keywords.zip (3.4 KB)
我最近在做mdict解析库和程序，帮楼主提取出来了。另外mdict是没有分页的概念的，所以也不存在页号，我只能提取所有关键字。

u3842 · 2026 年2 月 10 日 01:11

看了下这个mdx的结构是

词条的内容只有@@@LINK=XCGL0702之类的，后面的数字应该是页码，看楼上发的词条“一”对应页码1，应该是没有偏移的，而像XCGL0702这种词条则是<img …… html

提取出的内容：

一 0001
上 0037
上 0445
不 0109
……共720个

entryList.txt (6.3 KB)

winn · 2026 年2 月 10 日 02:04

拜读一下，你就知道。信息教程这些都很多。如这个有详细介绍：https://m.php.cn/faq/1987047.html

xliley · 2026 年2 月 10 日 08:58

SourceEditor，里面有个headword 功能可以直接导出目录的，非常方便。
SourceEditor.rar (4.3 MB)

开心每一天 · 2026 年2 月 10 日 12:59

请教大侠是怎么推算出来的词条和页码的对应关系的呢？我看楼上提供的目录文件，中文汉字有1400个左右，而带数字页码的行只有一半（700左右），无法一一对应呀。但大侠提供的索引文件却是一一对应的，我查了原目录，词条和页码对应是非常准确的，没有错误。这是怎么做到的呢？能详细说一下么？

开心每一天 · 2026 年2 月 10 日 13:00

非常感谢，能够提取出来数字和词条的原始数据，但不知道如何能自动对应起来（一个词条对应一个页码，比如“一”对应“1”）

u3842 · 2026 年2 月 10 日 13:27

这个mdx里的内容比较特殊，比如词条“一”的内容是"@@@LINK=XCGL0001"，这在mdx是指转到“XCGL0001”这个词条，而“XCGLxxxx”这些词条是真正用来显示图片的，这些词条内容像这样

<img src="/XCGL0740.jpg" width="100%"><br><center> <a href="entry://XCGL0739">上一页</a> &nbsp;&nbsp;<a href="entry://XCGL0741">下一页</a> <br><br><center> <a href="entry://XCGLF0004">再版说明</a> &nbsp;&nbsp;<a href="entry://XCGLF0006">原版序</a> &nbsp;&nbsp;<a href="entry://XCGLF0008">凡例</a>

<img …是图片 <a…是可点击的链接，不难看出XCGLxxxx后面的数字表示页码，得益于这种结构，提取很简单还不会出错