O X ten raw_data

单词发音,在 json 中有2种:

  1. “audio”: “…” => 共有记录94981,去重后 93574。
  2. "tag": "audio", "value" => 3641个

而楼主打包的 MP3 还包括了 单词变形 的发音,共 128012 。这部分 MP3 是从何而来?

如果用 infl values 还原 presents#_gb_1.mp3, 那么 presents 有名词复数和动词三单两个变形,而实际上MP3 文件只是 三单的发音,这部分不知道如何匹配。

update: 看官网好像只有动词变形有发音。名词复数未给出,这部分多出的音频先处理成动词吧。

不是我打包的,官方的文件

http://oxford-x-file.oss-cn-hangzhou.aliyuncs.com/audio/words/words_audio_new.zip

:smirk:

图像共155张,内含单词记录 2492 次。
len(matches) = 2492
len(urls) = 2492
len(urls_set) = 155

100M FreeMdict Cloud

免费给官方打工

重复词头60个,共120个词条(从[“data”][“word”] 统计)

但是 [“data”][“word_body”][“top_data”] h>tag> hm 里有121条,差异如下

"33668": 1,
"35013": 1,
"39337": 1,
"40418": 1,
"40430": 1,
------------
Liechtenstein  #  897|3363
Liechtenstein  #  897|3363
Kiribati  #  6579|30352
Kiribati  #  6579|30352

词头字符分类 除了abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-·. ’™,

还有

No. 10
St John's
(the) Pacific Ocean
(the) Yukon Territory
(the) Northwest Territories
(the) Northern Territory
(the) Sunshine Coast
C & W
(the) Australian Capital Territory (ACT)
caffè latte
R & B
B2B
R & D
S & L
B2C
com·mu·ni·qué
F-1 visa
ex·posé
MP3 player
blasé
attaché case
A & R
fri·sée
brass·ière
c/o
(the) Ivory Coast
(the) Vatican City
ris·qué
s/he
dia·manté
Monégasque
w/o
(the) Gambia
piqué
di·vorcé
con·sommé
b/w
di·vorcée
in·génue
(the) Indian Ocean
(the) Netherlands
(the) Czech Republic
tête-à-tête
(the) Arctic Ocean
(the) Bahamas
(the) Seychelles
ma·ñana
(the) Dominican Republic
pâté
the Dáil
(the) Commonwealth of Dominica
(the) Marshall Islands
can·apé
the royal ‘we’
(the) Solomon Islands
fin de siècle
(the) Central African Republic
(the) Atlantic Ocean
MI5
São Tomé and Príncipe
tou·ché
MI6
outré
olé
bodh·rán
soirée
pietà
vi·cuña
émi·gré
MP3
(the) Caribbean Sea
(the) Philippines
MP4
(the) United Arab Emirates (UAE)
Web 2.0
La Niña
at·taché
fi·ancé
mac·ramé
fi·an·cée
Côte d'Ivoire
El Niño
à la
TCP/IP
née
ged·dit?
lamé
dop·pel·gän·ger
(the) Democratic Republic of the Congo (DR Congo)
après-ski
'nother
NC-17
souf·flé
mé·tier
jala·peño
crêpe paper
A1
crème fraiche
voilà
béch·amel
God Save the King/Queen
passé
n/a
Mö·bius strip
and/or
ha·bi·tué
R & R
Associate's degree
açai
w/c
a/c
pro·tégé
cost–benefit
mé·nage
cafe·tière
K-12
pi·ña·ta
Nez Percé
à la carte
coup d’état
(the) Right Reverend
rai·son d’être
bou·ton·nière
déjà vu
pa·pier mâché
glacé
ap·pli·qué
dé·coup·age
women's room
étude
cor·tège
Chapter 7
physician's assistant
A & E
rosé
PG-13
table d’hôte
hydr(o)-
crème de la crème
coupé
the United States (of America)
vis-à-vis
man·qué
ré·sumé
Omega-3
bête noire
pâté de foie gras
H2O
nor'easter
trompe l’œil
cause cé·lèbre
pied-à-terre
'un
coup de grâce
flambé
épée
pièce de ré·sist·ance
crèche
Chapter 11
dé·col·le·tage
ménage à trois
crème brûlée
en·trée
purée
mise en scène
chargé d’af·faires
sauté
frappé
cli·ché
com·père
crêpe
crème caramel
maître d’

感觉我太渺小了,一点点拼进度实在是慢。

目前是这样子:词头还没处理,只有单词发音。FreeMdict Cloud

main.py (4.7 KB)

这个词典可以慢慢做,但是时效性资源除了单词例句发音、图像之外,还有别的资源需要抢救性备份的吗,要先存下来。

劳师糜饷,我的建议是不如做牛津英汉辞书还有独家词条。商务的牛津是完全还原纸质书,专栏和插图都只有一个词条才有,相关其他词条没有便捷跳转显示。功能性比英文官网和牛津英汉辞书差距比较大。

对,数据缩减,不适合查词,我打算加上翻页按钮,当作可发音的纸质书阅读。

主要不知道楼主的需要,(建议楼主先用着第九版双解,完成度很高)

这个没有公开数据啊,有 mdx,但感觉修着修着就结构混乱动不了了,只有原作者能修,所以我打算做一版 OX 10 公开源码。

我做了一版,瑕疵很多就没发,花了很多时间,但是细节问题越用越多,越修越多,感觉再继续做也只能拿 70 分就放弃了,现在用的还是牛九双解。

缺一个架构师 + pandas 玩家若干。 :sweat_smile:

源数据备份(主要是例句音频):FreeMdict Cloud

JSON 难拼,且拼完不如更新的 online 数据,而 online OALD 缺少中文翻译和例句发音,所以数据用来做缝合版比较理想。

词头和短语再经过 dictionary.com 的词形映射处理,结果比较实用,可以直接复制原文搜变形。

这个数据是商务 APP 的?商务 APP 的数据和 Online 版很多地方对不上,不知道怎么缝合的,还不如用九。

商务本来就是独立弄的,哪有缝合一说。

我是指楼上说的 Online 英文 + 商务中文翻译。

1 个赞

the

used to refer to somebody/something that has already been mentioned or is easily understood

used to refer to sb/sth that has already been mentioned or is easily understood
(指已提到或易领会到的人或事物)

There were three questions. The first two were relatively easy but the third one was hard.

There were three questions. The first two were relatively easy but the third one was hard.
有三个问题。头两个相对容易,第三个困难。

There was an accident here yesterday. A car hit a tree and the driver was killed.

There was an accident here yesterday. A car hit a tree and the driver was killed.
昨天这里发生了一起事故。一辆小轿车撞到树上,驾车的人死了。

楼主分享的 json 未携带排版信息,所以用online已经排版好的的 html 数据匹配json的汉译和高清的20G例句发音,这种缝合。

1 个赞