Wiktionary 2021 极简版

根据大侠指点到这个网站(http://kaikki.org/dictionary/)
下载了文件制作而成,由于自己正则表达式水平很低,仅提取了词头和释义。
目前存在几个问题:
1、词头96万多,不知道为何漏了好几万
2、不会加序号
3、有许多类似 \u200b 的编码不知道如何处理



链接:https://pan.baidu.com/s/1vjuc1s_J_KV47tlhjccEag
提取码:p2aw
复制这段内容后打开百度网盘手机App,操作更方便哦
或者:https://1drv.ms/u/s!AmPIw0s6R60lksxO4V1Cjq4JQvNTUg?e=H0Z8s4

4 Likes

\u200b直接去掉即可,或是和网页比较一下,看怎么替换。

感谢告知,我还以为有什么方法可以一次性转换的,对比了一下,主要是一些法语、德语、俄语类似音标的字母和一些不常见的符号,很难输入到电脑中的那种,数量非常多。

找个可以 转 unicode 到文本的编辑器。

我用的是EmEditor,虽然有转换的功能,但转不了,不知道为什么。