测测各个词表的覆盖率

又开始搞词表了, 我想看看这些词表, 在实际作品中的覆盖情况. 随机找了10本书.

文本

.
|-- A Game of Thrones 5-Book Bundle - Martin George R.R.txt
|-- A Short History of Nearly Every - Bill Bryson.txt
|-- Animal Spirits - Shiller Robert J.txt
|-- Guns Germs and Steel - Jared Diamond.txt
|-- His Dark Materials The Complet - Philip Pullman.txt
|-- Surely You're Joking Mr. Feyn - Richard Phillips Feynman.txt
|-- Tender is the Night - Francis Scott Fitzgerald.txt
|-- The Economist Magazine the Worl - The Economist.txt
|-- The Great Gatsby - Francis Scott Key Fitzgerald.txt
|-- The Selfish Gene 30th Annivers - Richard Dawkins.txt

将其中的单词取出来, 要求能在词典里找到.

  • 首字母大写的单词如果有小写的存在则作为普通单词计算, 如没有则不统计.
  • 连字符单词如词典里有则作为普通单词, 如没有则拆开.
  • 会尝试还原单词, 使用的是目前评测准确率最高的lemminflect,
  • 会尝试切换英美拼法, 使用的词典
  • 会尝试"还原->切换", "切换->还原"这种组合

词频表

数量太大, 以1万开始, 每次加1万这样看. 其中的bigfreq是各个词频表合并的表.

Excel格式结果

这个应该是最终版本了.

我挑了个效果最好的COCA做了一个图.

coca-oed.png

到3万时, 字数覆盖率停了…

前三万对比

30000.png

词表下载

3 个赞

牛批,这个特么不是词汇学课本上说的词典学的教授做的事情吗,神奇

1 个赞

能否分享下gngram词表?

1 个赞

说明参照词表的来源可靠性,结果发成电子表格更清楚,更有价值

我当然记下了那些没有的词是什么, 文字太多, 超出一个帖子限制.

52万也没有的词

maester
septon
direwolf
khal
alethiometer
kingslayer
sellsword
khaleesi
smallfolk
riverlands
gyptians
gyptian
direwolves
tokar
greatsword
innkeep
wayn
dalla
roughspun
freeriders
ringmail
swordbelt
warhorn
warhorns
warg
sraf
kinslayer
oathbreaker
greywater
rosey
dragonbone
habilis
wargs
gyropter
kennelmaster
poleboat
tokars
lichyard
freerider
bedrobe
wallwalk
crosslegged
westermen
fingerbones
swordpoint
nightsoil
swordbelts
mindreader
sibly
kof
naïve
nameday
wallwalks
brotherfucker
haplodiploidy
façade
hearthfire
eichengreen
xiaokang
whimpery
crossguard
bup
pisswater
squishers
haplodiploid
ringfort
oughter
greensight
tulku
hemi
sidewhiskers
multiregionalism
heidelbergensis
dragonslayer
fishmarket
dragonslayers
neanderthalensis
memic
herbwomen
naturelle
lionskin
zorses
evolvability
polemen
ramidus
palaeoanthropologists
deerhide
oathbreaking
eyeslit
oathbreakers
thall
abbatoir
wyrms
milkglass
stablehand
packmates
wuh
surefoot
pandeiro
puniceus
superplumes
garçon
thirdborn
mimeme
poleboats
comin
honeycakes
namedays
très
pekinensis
vis-à-vis
deedle
macroeconometric
stablehands
zorse
ekpyrotic
hmmmm
incognitum
gonnegtion
eichenwald
rabbitskins
bitsi
deepset
kingslayers
poste
undersave
château
oftimes
lookin
palaeo
jaunes
anceps
hith
pieth
débris
methanosarcina
sagelands
chep
underconfidence
thend
doot
herblore
carboxyhaemoglobin
europea

ellsberg
apertura
icemelt
pawprints
kek
chinense
ubiquitinated
squisher
megatonnes
tipico
fornicata
cockless
aletheia
noncentralized
mindreaders
antipion
hidey-holes
follering
naturalis
mindreading
ethno
vicuña
horsefaced
ergaster
methanobacterium
fulvum
pteronyssinus
lystrosaurus
trente
oatbread
naïveté
pigshit
ngong
kinslayers
cortège
annuum
flotte
tumba
bearclaw
dragonking
angulata
primigenius
asiaticus
boisei
knotwood
deez
cious
fiancée
hyperthermophiles
horrorstruck
aquaticus
ferrugineus
débutante
spaceling
antichaos
sussuration
autore
soins
scire
paese
braith
sini
anisakiasis
worldcon
securitizers
microsocieties
ocha
heah
paleovegetation
megafirms
tenuissimum
welche
systematicists
wingbone
underhoof
fomivirsen
dinosauria
reshoring
nonsyphilitic
sergent
xiqu
jalapeño
misimprinted
laisser
multiannual
mitosing
wetwood
lalla
geant
clayland
glycophosphatidylinositol
noch
zooarchaeology
keyholders
helles
full-bloodedly
workshirt
nahsa
émigré
surehanded
dropoff
birdshit
dextra
californica
gettin
birdseller
wimpering
bastid
huner
caudatus
ium
fabulation
good-humoredly
sonal
brek
byssoides
towrd
piti
paleeyed
somnambulatory
boissons
demande
moonblood
mélange
pepperpots
apeness
choong
overtunic
pyrodictium
ariseth
thock
publico
darl
metahistory
westerland
maintenant
wormfood
backstepped
carmaking
eous
horo
jouet
lui
protégée
pyrrolysine
hammerblow
jien
canapé
feastdays
sideface
instrumentalise
ovata
wolfpack
inglese
noseful
planemakers
n.p
gnathostomulida
starfire
spitless
walkeri
teco
payin
catscratch
anchisaurus
thermotogales
antiquus
sociale
pronostic
cela
todt
bringe
keepin
nucula
hootchy-kootchy
apprendi
domestica
ahp
otherworldy
lockside
gentille
keng
candlewax
bowcase
embar-rassed
somethin
waterly
nondepository
supervolcanoes
pan-Africanism
hisssssss
canum
depictable
superplume
dest
longerterm
palaeontologically
mudman
glaber
foolin
daggerman
priapulida
née
éclat
plaisir
oveja
pinenuts
arrowslits
steelclad
barbitol
secondborn
multicopter
coffyn
hirsutum
tootin
dragonlore
desart
nonintensive
a-Changin
pepperpot
runneled
anamensis
longwinded
dragonless
maladie
élan
unsheath
humanmade
quarante
apolo
microsporidia
parvorder
armsmen
père
midstep
dreamwalker
nonannual
bedrobes
etta
selfer
porte-monnaie
thermoproteus
makhaira
quiverfull
nurth
continentwide
scaldingly
parthenos
singleminded
sufficent
veux
inodora
halfgate
swordfighting
yeilded
totaller
noncooperatively
shortterm
strawhead
métier
pomodoro
cookpots
nonegalitarian
ferus
bethulah
mente
askin
philosophiques
cryptozoa
byblow
unbizarre
crouds
firestick
halooing
mooreana
triploblasts
lenscrafters
peur
incurva
croire
incurvata
multiregionalists
sativum
canorus
alwaies
citta
birdkeeper
servingwoman
chuh
moosehead
rike
noches
acidocaldarius
moschata
neckware
lunatus
deckboards
viridissima
siz
legholes
pitful
attenuata
démodé
cavewoman
waa
porque
rakhi
lieber
truckmaking

这统计挺有意思的的。
不过人家99%是说100个单词里有99个是词表里的,并没有说是100个不重复单词。。

1 个赞

来源只能说是网络收集.

部分词表是这个帖子提到的: 分享若干词表:大学四级,六级,专四,专八,toefl,oald,gre,coca,
还有一些是网上收集的

词频表的iweb是坛友分享给我的
bnc是官方的bnc-o5表
subtlexus是官网下载的
google ngram来源网上共享的.
coca不用说了

1 个赞

说实话你这统计真是打击我背单词的热情 :sob:

这下很清楚了,有深度!点赞

1 个赞

后面数字是百分比吗?
collins-0 10
只占这十本书的 10%?

莫慌, 一开始我也震惊到了, 仔细看了一下, 问题不大.

这里是biglist 2万没有的词 FreeMdict Cloud

主要是专有名词, 形态变化词, 少量的错误词, 真正没覆盖的词是较少的.

一共是一万八左右, 我忘记统计这10本书的总单词数了, 我最开始统计出现5次以上的单词, 最后才改成统计出现2次以上的, 这其中我发现, 从4次到5次就能过滤掉一万左右的单词.

也就说这10本书38000的单词出现了2次以上, 其中有一万左右的单词只出现了5次以下.

嗯,我也发现大部分都是姓名啥的,应该想办法排除掉吧,比如干掉有大写的。你用重复次数是排除不掉的,因为一本书里往往姓名的重复次数反而是最高的。

网上现有的词表,没有一个是根据学习者自己的情况做学习范围划分的。其实对学习者而言,更有意义的是学习者自己的“已记熟词表”和“不熟/生词表”,两个表范围根据自己的需要定,并在学习中不断动态调整。

推荐试试这个离线网页版的类蒙哥阅读器,可以动态调整自己的两个词表:

2 个赞

重复次数是为了排除干扰的非单词项目, 专有名词应该不需要过滤吧, 这些也能反应真实情况

专有名词是需要排除的,因为你的目的是为了测试掌握多少词汇量可以无障碍阅读。而词典里是会收录姓名的,但是我没背过这个姓名完全不影响我阅读。
我的建议是只要有大写字母的就剔除,这个虽然会造成一定的误伤(比如句首大写),但是只要该词对应的全小写单词保留,就不是大问题。

Homonym :crazy_face:

专有名词(主要是姓名)在我看小说前用生词提取软件提取生词背诵时就发现了。基本上现有的生词提取器都会把所有单词转小写,然后提取,虽然有些软件考虑到了词形变化,但是基本上不考虑姓名,造成很大的干扰。比如我知道Harry Potter是个人名就行了,并不需要先背harry是掠夺、折磨的意思,也不需要知道potter是陶工,这两个词都是词频2万左右。虽然有的作者会在姓名上玩花活儿,但说实话为此背一些冷僻词性价比太低。

1 个赞

可以重新写一个,这次再记录总单词数和真覆盖率,现在算是独立单词覆盖率吧。
排除专有名词的话,可以过滤掉那些没有出现小写形式的词,肯定是专有名词,误伤估计还会有。

误伤不可避免,但我觉得不会太多。比如一个词不是专有名词,因为句首大写被剔除了,如果该词是常用的,总会出现一次不在句首的情况从而被收录,极少有每次都是句首被误删的情况。

1 个赞

其实我觉得2次以上这个排除造成的误杀可能更多。。似乎没有必要,只出现1次也不能说就不是生词了。反正有词典验证在,干扰词不会造成大影响。
我想来想去还是觉得干掉所有带大写的更好,除了姓名等以外,也能排除掉一些特殊的表现手法带来的干扰词。而造成的误杀无非是一些现实中存在的地名、专有名词,这些数量不会很多。至于说句首大写导致的误杀,我觉得也不必考虑,因为一个词只要出现两次以上,总会有一次不在句首的。
另外就是带连字符的合成词,这时候我倒是觉得应该采用你之前那个拆解的办法。即,如果该合成词词典里存在,那么算是词;如果不存在则拆开,如果拆开的两半各自存在,则计算到各自的词;如果拆开后有一方不存在,则直接丢弃,这可以排除掉一些特殊表现手法带来的连字符。
另外,统计书籍也可以分类,比如小说类,政经类,新闻类,可以看看各个词表的适用性,一定很有趣。比如我只看小说,就想优先背用得上的,实际上现有的通用性词表就不太适合,哈利波特第一册就能有1000多个词频10000以后的,20000以后的都有好几百。

1 个赞