物书堂词典提取脚本

适用物书堂的Mac应用程序。使用前必须在应用程序里先用正则星号,或单个前缀搜索出所需要的词头,再高亮第一个词条,然后打开脚本编辑器(应用程序-实用工具),复制下面的脚本代码,修改脚本内需要提取词条数量,运行此脚本(右上角播放键)。

说明:

运行此脚本需要设置:
系统-安全性与隐私-辅助功能-点按锁按钮进行更改(右下角)-勾选脚本编辑器

此脚本使用苹果官方脚本程序制作,模拟正常的复制粘贴操作,唯一用到shell的地方是用于保存文本,文本位置默认保存在用户目录下(headword_*.txt),所有命令行都已添加注释可以放心使用。

特别说明:

如果有漏词,需要把等待时间delay再拉长。

# 键盘码表
# https://eastmanreference.com/complete-list-of-applescript-key-codes
# 必须先手动搜索出所有词头,然后高亮第一个词条
tell application "Dictionaries"
	# 激活窗体
	activate
	# 等待5秒
	delay 5
	# 设置循环次数
	set counter to 0
	# 需要通过系统事件发送按键命令
	tell application "System Events"
		# 自行设置需要提取的词条数量
		repeat 5 times
			set counter to counter + 1
			# 每条命令都必须有延迟,防止出错
			delay 2.5
			# 发送全选按键
			keystroke "a" using command down
			delay 2.5
			# 发送复制按键
			keystroke "c" using command down
			delay 2.2
			# 保存复制内容到文本,这里需要指明编码为utf-8
			do shell script "LC_CTYPE=UTF-8 pbpaste > ~/headword_" & counter & ".txt"
			# 光标向下移动一条
			tell process "Dictionaries" to key code 125
			delay 4.5
		end repeat
	end tell
end tell

感谢hua站长提供这样一个自由分享无门槛的词典社区,很喜欢这里的氛围。

9 个赞

一直都很想要物书堂的辞典,可惜又不会抓取,期待大神的作品 :smiling_face_with_three_hearts: :grinning_face_with_smiling_eyes:

2 个赞

确实。加HTML标签实在是很麻烦。
所以我经常说OCR + 校对 还只是一半的工作量。

不管怎样,感谢分享脚本。毕竟有时候首先是有无问题。

2 个赞

柯高8英汉双解学习词典,论坛好像没有看见公开分享的文字版mdx

1 个赞

物书堂上有两本 Collins 双解

タイトル|Collins COBUILD Advanced Learner’s English-Chinese Dictionary 第8版
|出版社|外语教学与研究出版社|

下面这本是美式英语,而且中译是 Collins 自己的。

Collins COBUILD Advanced Dictionary of English, English/Chinese
|出版社|HarperCollins Publishers|

4 个赞

这个只能复制粘贴成纯文本吗?如果粘贴到 word 之类的软件里面会不会保留一定的格式?没有 mac 也没法试

1 个赞

测试可以用approval测试,这个词头有两个栏目,社区版是没有的

论坛没有第8版的柯林斯英汉双解学习词典的mdx,内容当然不全咯。

准确的说,应该是第五版和第六版的混合,我对比了双解纸质版和第五版、第六版的原版光盘版,发现双解的主要内容来自第五版,同近义词主要来自第六版。
此外,mdx版的双解中缺失了较多语法信息。

by fredliu (隔壁论坛的一位朋友)
https://www.pdawiki.com/forum/forum.php?mod=redirect&goto=findpost&ptid=43571&pid=2255124

4 个赞

全论坛,暂无柯高8 的mdx吧,如果能提取转化为PDF类的就帅呆了。

1 个赞

研究社的日语搭配有没有兴趣搞

1 个赞

提取了一页Html,词头是approval,没时间全部提取,附带有css文件,排版很精美,供参考:

approval.zip (4.2 KB)

2 个赞

只能期盼哪位大神能重新制作这本柯林斯高阶了,这可是最新版第八版高阶啊。 期待

1 个赞

我提取的方式很落后,一条至少要5分钟,没可能做这事了,等等看有没有高人了。

2 个赞

真是感谢两位大神了,为今年的论坛注入新鲜的血液。期待中

这样子批量添加HTML标签过后,再开个新帖,让大家边使用边反馈捉bug,不断完善更新。
好用的词典都是这样持续维护打造出来的

1 个赞

感谢感谢、meigenchou 原先在隔壁发过一个物书堂的collins english dictionary 12th edition,mdx几乎100%还原了app的排版和内容。

1 个赞

看到楼上都在说纯文本
如果只想获取到物書堂的正文数据,那么很简单的把contents.rsc文件解析一下就完事了,这个文件我不确定在mac上的哪个地方,以前都是用越狱ios搞的。关键是物書堂作为世界最好的辞书软件(商)[没有之一],它自己的格式不能被无损转换成其他任意一种词典格式,包括索引那块我也没完全解析出来,曾经转过的几本mdict格式可以参考隔壁,很明显转换后体验严重下降了,只能查个词头,还不能像APP可以指定字符查询。至于其他的例句查询之类就不用想了,某dict根本没这功能,如果是epwing格式还能一看,不过支持的html标签有限,无法展现和原来一样的排版样式。

4 个赞

没错。正文导出后,加载原app的css修饰才是最完美解。可惜ebwin和mdict支持都很有限。

1 个赞

能不能把你找到的 contents.rsc 文件发上来,这里能人多,看看有没有人能更好地解析里面的内容

1 个赞

同意。这么一来,把原本的正文解析出来,再把app的css文件一套,就搞定了。

早就解完了啊,只剩索引没解析完全,有兴趣自取
CCADF.rar (4.6 MB)

3 个赞