物书堂词典提取脚本

我提取的方式很落后,一条至少要5分钟,没可能做这事了,等等看有没有高人了。

1 Like

真是感谢两位大神了,为今年的论坛注入新鲜的血液。期待中

这样子批量添加HTML标签过后,再开个新帖,让大家边使用边反馈捉bug,不断完善更新。
好用的词典都是这样持续维护打造出来的

1 Like

感谢感谢、meigenchou 原先在隔壁发过一个物书堂的collins english dictionary 12th edition,mdx几乎100%还原了app的排版和内容。

看到楼上都在说纯文本
如果只想获取到物書堂的正文数据,那么很简单的把contents.rsc文件解析一下就完事了,这个文件我不确定在mac上的哪个地方,以前都是用越狱ios搞的。关键是物書堂作为世界最好的辞书软件(商)[没有之一],它自己的格式不能被无损转换成其他任意一种词典格式,包括索引那块我也没完全解析出来,曾经转过的几本mdict格式可以参考隔壁,很明显转换后体验严重下降了,只能查个词头,还不能像APP可以指定字符查询。至于其他的例句查询之类就不用想了,某dict根本没这功能,如果是epwing格式还能一看,不过支持的html标签有限,无法展现和原来一样的排版样式。

2 Likes

没错。正文导出后,加载原app的css修饰才是最完美解。可惜ebwin和mdict支持都很有限。

能不能把你找到的 contents.rsc 文件发上来,这里能人多,看看有没有人能更好地解析里面的内容

1 Like

同意。这么一来,把原本的正文解析出来,再把app的css文件一套,就搞定了。

早就解完了啊,只剩索引没解析完全,有兴趣自取
CCADF.rar (4.6 MB)

3 Likes

提取的时候是不是有遗漏,take的单词没找到,对应哪个txt

看了下上面压缩包里的文本有很多重复的。去重以后大概有 32764条。

哦这样。那就不太清楚了。 :upside_down_face:

物书堂的co8的词头数据能单独导出吗?

好的明白了。

实际上是32772
顺带一提,CCAD8英英版也不过32773条,比双解多出一条大家猜是哪个

有办法拿到32772的列表吗,我直接把缺的找出来,如果后面再补,再发新的版本,挺麻烦的,干脆一次到位!

好办法,有链接没

hi,这是我用百度网盘分享的文件~复制这段内容打开「百度网盘」APP即可获取。
链接:https://pan.baidu.com/s/1Fu8tsW6hJZ4HyFUFbrNUhA
提取码:G2g8

2 Likes

CCAD8.css (6.6 KB)
CCAD8.mdx (9.9 MB)

2 Likes