物书堂词典提取脚本

random · 2021 年11 月 10 日 16:46

看了下上面压缩包里的文本有很多重复的。去重以后大概有 32764条。

random · 2021 年11 月 10 日 16:48

哦这样。那就不太清楚了。

random · 2021 年11 月 10 日 16:50

物书堂的co8的词头数据能单独导出吗？

random · 2021 年11 月 10 日 17:06

好的明白了。

MeigenChou · 2021 年11 月 11 日 01:53

实际上是32772
顺带一提，CCAD8英英版也不过32773条，比双解多出一条大家猜是哪个

okayer · 2021 年11 月 11 日 02:26

有办法拿到32772的列表吗，我直接把缺的找出来，如果后面再补，再发新的版本，挺麻烦的，干脆一次到位！

okayer · 2021 年11 月 11 日 02:32

好办法，有链接没

sakula · 2021 年11 月 11 日 02:42

hi，这是我用百度网盘分享的文件~复制这段内容打开「百度网盘」APP即可获取。
链接：https://pan.baidu.com/s/1Fu8tsW6hJZ4HyFUFbrNUhA
提取码：G2g8

sakula · 2021 年11 月 11 日 02:50

sakula · 2021 年11 月 11 日 02:52

CCAD8.css (6.6 KB)
CCAD8.mdx (9.9 MB)

MeigenChou · 2021 年11 月 11 日 03:09

我统计一下

CCADF.hw.zip (122.9 KB)

okayer · 2021 年11 月 11 日 04:35

不太好找，比对了几个不同版本的词头，空闲的时候帮查下吧。另外，像made-up 的释义本来就是粘连在一起的吗，比如「made-upalso made up」、「north-westalso northwest」。

behindhand
calamity
charioteer
chatterer
cupidity
gasometer
get
giantess
go
hatband
metabolism
negroid
oxcart
pachyderm
panacea
turn
ungraded
zephyr
Sovietologist
Tibetan

MeigenChou · 2021 年11 月 11 日 05:38

看了下不太好对比，已知的有
calamity
get
metabolism
panacea
run
take
turn

random · 2021 年11 月 11 日 08:13

应该就缺失这几个词头了其他都有了

RBS · 2022 年2 月 5 日 10:02

可惜我用的是虚拟机，太卡了。。。

maboroshi · 2022 年4 月 4 日 04:57

想请教一下contents.rsc要如何解析呢
我能找到像contents-0001.rsc，contents-0002.rsc这样的文件

zhw · 2022 年4 月 13 日 02:56

请问多出来的是哪一条？

MeigenChou · 2022 年4 月 13 日 06:55

一个不重要的词，当时遍历完就把英英扔了，反正没再看过

zhw · 2022 年4 月 13 日 07:42

谢谢回复~

bud · 2025 年8 月 12 日 00:32

应该是Arab Spring