O X ten raw_data

白嫖一年的商务版牛津10到期了,哪位热心人出手转制一本mdx
json格式
https://musetransfer.com/s/u7sakj9i7 请点击链接获取《无主题 - ox10_json_data.txt》, 有效期至6月18日
sample.txt (2.0 MB)

3 Likes

这个数据论坛很多人分享过了,只有港版牛津10的原始数据能够方便转换成 mdx。找了几个作者,都说用这个 json 还原词典的版面几乎不可能。

来源是爬虫吗?

不是,就是 sqlite 文件导出的,商务的没加密,但也不是正常的 json。

https://oxfordx.cp.com.cn/api/word-detail?word_id={}

遗憾[字数补丁]

原来如此,原始数据库我没看过,只知道数据库是明文的。用api获取json有点白用功。

txt压缩一下吧,传附件。

2 Likes

楼主提供的 sample.txt 就是词头 go 的 json 数据,这个文件都 2 MB 大小了,光分析结构就很困难,还原版面的难度更高,所以有作者只抽取了双解的数据。

1 Like

处理json确实烦人:laughing:,我做的好几本汉语词典都是json转的,层层叠叠看着头晕。还放着本现代粤语没有做,谁想做的话可以找我。 :grinning:

1 Like

好东西,耍耍。

除了汉译,例句发音有更新吗?还有哪些内容比 online 优秀?

这语音资源怎么拿?


                                                "xaudio": [
                                                    {
                                                        "tag": "xaudio",
                                                        "value": {
                                                            "geo": "br",
                                                            "url": "_funny#_gbs_1"
                                                        },
                                                        "bold": 0,
                                                        "color": "",
                                                        "font_size": "",
                                                        "font_style": "",
                                                        "font_Italic": "0",
                                                        "if_newline": 0,
                                                        "delete_line": 0,
                                                        "path": "h-g/sn-gs/shcut-g/sn-g/x-gs/x-g/rx-g/xaudio",
                                                        "id": ""
                                                    },
                                                    {
                                                        "tag": "xaudio",
                                                        "value": {
                                                            "geo": "n_am",
                                                            "url": "_funny#_uss_1"
                                                        },
                                                        "bold": 0,
                                                        "color": "",
                                                        "font_size": "",
                                                        "font_style": "",
                                                        "font_Italic": "0",
                                                        "if_newline": 0,
                                                        "delete_line": 0,
                                                        "path": "h-g/sn-gs/shcut-g/sn-g/x-gs/x-g/rx-g/xaudio",
                                                        "id": ""
                                                    }
                                                ],
                                                "un": [],
                                                "id": "u596c17338875400e.30be04e6.154e25f47fc.40fc"
https://oxford-x-file.oss-cn-hangzhou.aliyuncs.com/audio/xgs/xgs_audio/_funny%23_gbs_1.wav
https://oxford-x-file.oss-cn-hangzhou.aliyuncs.com/audio/xgs/xgs_audio/_funny%23_uss_1.wav

例句语音这么拼接就好;单词发音上传到上面的Gofile网盘了。

1 Like

Nice.

发音例句 与 OALD9_mdx 相比

音质:更清晰。

体积:大概 20G。

数量:由 114178 减少到 106890 (已去重)。(可能统计不全,107502 次使用)。

网页端有 OALD ,如果传过来的也是 json,是不是可以保存一份 js 作为数据处理的逻辑参考。

例句音频已上传,喜欢例句的可以先下载,随时过期。

2 Likes

oalecd10.cp.com.cn.zip (2.1 MB)

1 Like

ill → illustrate → 图片地址?

apple

                    "ill": [
                        {
                            "tag": "ill",
                            "value": "fruit_misc",
                            "bold": 0,
                            "color": "",
                            "font_size": "",
                            "font_style": "",
                            "font_Italic": 0,
                            "if_newline": 0,
                            "delete_line": 0,
                            "path": "h-g/sn-gs/sn-g/ill-g/ill",
                            "id": ""
                        }
                    ]

这个 path 映射表有吗,除了音频、图像,其他元素也有这东西,像 词性 POS , 不知道有什么用,是映射到某些具体 HTML/CSS/JS 的打包资源,直接模板+参数生成 HTML/CSS

                        "pos": [
                            {
                                "tag": "pos",
                                "value": "noun",
                                "bold": 0,
                                "color": "",
                                "font_size": "",
                                "font_style": "",
                                "font_Italic": "1",
                                "if_newline": 0,
                                "delete_line": 0,
                                "path": "h-g/top-g/pos-g/pos",
                                "id": ""
                            }
                        ],

太好了,谢谢!

https://oxford-x-file.oss-cn-hangzhou.aliyuncs.com/ill-picture/OALECD10_illustrations/fruit_misc.jpg

我搞不定