某汉英词典解析代码

https://cc-cedict.org/wiki/

10 个赞

发自灵魂深处的景仰。
如果人生能够重来,我要学计算机啊!

之所以发自内心,是因为我工作中很多语料库方面的问题因为计算机知识的缺乏没办法解决,现在精力不济,没法自学了……

不需要系统的计算机知识。知道隔壁那位神一样的高人的职业是什么吗?是个中学的英语老师。

您所言极是,前几年熊猫烧香是小学还是初中毕业生开发的好像,可是人领悟力不一样啊

著名的Klwo2?

有问题多发出来,论坛达人很多的,我也是从这里开始学编程

1 个赞

这本应该是本论坛2021年第一部题为2021的词典了,值得标注一下

3 个赞

受教了,多谢!
可惜我上大学时很多时间淹没在很多没有意义的课程中……

请教一下,HanDeDict是和CC-CEDICT类似的在线汉德词典,数据文件也和CC-CEDICT类似(https://handedict.zydeo.net/en/read/details/format-and-guidelines )。但我尝试用extract.py转换下载的.u8文件(https://handedict.zydeo.net/en/download )没有成功。
如果方便的话,能不能帮忙指点一下,是否需要在extract.py里做些调整?谢谢了!

1 个赞

HanDeDict 文件有“空行”,而且文件开头多了个奇怪的东西:

In some areas, it is also convention to use a “BOM” at the start of UTF-8 encoded files; the name is misleading since UTF-8 is not byte-order dependent. The mark simply announces that the file is encoded in UTF-8. For reading such files, use the ‘utf-8-sig’ codec to automatically skip the mark if present.

用这个脚本吧:

extracth.py (917 字节)

最后记得把CSS文件名改成"cchdd.css"。

1 个赞

这个拼音咋转换成正常的呢?

太感谢了!我刚刚开始学习Python,纯小白菜鸟,多谢指教!


运行了一半,出现错误信息。如果方便的话,能不能帮忙看一下?

要是有个现成的对照表就好了:joy:。奇怪官方这个咋是这样的。

还是不行。很奇怪,程序可以运行,dict.txt文件已经生成了,一部分词也转换出来了,应该不是读写权限的问题吧?为什么说是“PermissionError: [Errno 13] Permission denied”呢?
运行了几次,每次停止的地方还都不一样,有的是刚转换了没几个词就停了,还有一次是转换了很久我还以为能成功了结果还是停下来了。 :sweat:

改成绝对路径还是不行,服了 :joy: 我再琢磨琢磨

转CC-CEDICT也出问题了 :sob:

UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x85 in position 851: illegal multibyte sequence

权限错误,我看不出问题在哪儿。直接给你生成好的 dict.txt 吧。

dict.7z (6.5 MB)

2 个赞

多谢了! :joy:
我再好好学习一下,有机会再向你请教。