物书堂词典提取脚本

提取的时候是不是有遗漏,take的单词没找到,对应哪个txt

看了下上面压缩包里的文本有很多重复的。去重以后大概有 32764条。

1 Like

哦这样。那就不太清楚了。 :upside_down_face:

物书堂的co8的词头数据能单独导出吗?

2 Likes

好的明白了。

2 Likes

实际上是32772
顺带一提,CCAD8英英版也不过32773条,比双解多出一条大家猜是哪个

有办法拿到32772的列表吗,我直接把缺的找出来,如果后面再补,再发新的版本,挺麻烦的,干脆一次到位!

好办法,有链接没

hi,这是我用百度网盘分享的文件~复制这段内容打开「百度网盘」APP即可获取。
链接:https://pan.baidu.com/s/1Fu8tsW6hJZ4HyFUFbrNUhA
提取码:G2g8

2 Likes

1 Like

CCAD8.css (6.6 KB)
CCAD8.mdx (9.9 MB)

3 Likes

我统计一下

CCADF.hw.zip (122.9 KB)

2 Likes

不太好找,比对了几个不同版本的词头,空闲的时候帮查下吧。另外,像made-up 的释义本来就是粘连在一起的吗,比如 「made-upalso made up」、「north-westalso northwest」。

behindhand
calamity
charioteer
chatterer
cupidity
gasometer
get
giantess
go
hatband
metabolism
negroid
oxcart
pachyderm
panacea
turn
ungraded
zephyr
Sovietologist
Tibetan

1 Like

看了下不太好对比,已知的有
calamity
get
metabolism
panacea
run
take
turn

4 Likes

应该就缺失这几个词头了 其他都有了 :grinning:

1 Like

可惜我用的是虚拟机,太卡了。。。

2 Likes

想请教一下contents.rsc要如何解析呢
我能找到像contents-0001.rsc,contents-0002.rsc这样的文件

1 Like

请问多出来的是哪一条?

一个不重要的词,当时遍历完就把英英扔了,反正没再看过

1 Like

谢谢回复~ :grin: