如何将一部英汉词典txt转成全英词典?不是CSS
自己的牛津英汉词典用软件解包了,一个是音频,一个就是超级大的txt文件,这个超级大的txt用软件打开后, 全是一些代码,汉语特别的多,如何快速地去掉或者删掉汉语解释?
举例:
abbey
a large church together with a group of buildings in which monks or nuns live or lived in the past (大)隐修院;(曾为大隐修院的)大教堂Westminster Abbey 威斯敏斯特教堂a ruined abbey 破败不堪的教堂Topics History b2 , Buildings b2 , Religion and festivals b2 Oxford Collocations Dictionary Abbey is used before these nouns: See full entry Word Origin Middle English: from Old French abbeie , from medieval Latin abbatia ‘abbacy’, from abbas , abbat- , from Greek abbas ‘father’, from Aramaic 'abbā .
TXT里面的汉语太多了 没有特别快速地办法删去汉语
谢谢你的支持
seid
2024 年11 月 1 日 22:53
4
根据unicode码表可以区分不同语言的文字,如果要删除中文,几句python代码就可以。
0x4e00-0x9fff: 普通中文字符范围
0xff00-0xffef: 中文标点符号和特殊符号
import re
text = 'a large church 大教堂'
pat = re.compile(r'[\u4e00-\u9fff\uff00-\uffef]')
newText = pat.sub('', text)
print(newText)
2 个赞
amob
2024 年11 月 1 日 23:01
5
属于是闲得慌,别人特意加上汉译的版本又自己删掉。不如直接找牛津英英版mdx。。。
我同意Amob的看法。纯英文的mdx比英汉的好找得多。
而且英汉词典的英文有时有错误,自己在英文上加汉译的版本可能制造出更多错误。纯英文的mdx词典问题要少得多。
但是讨论技术是有意义的。
\p{Han} can be used to match all Chinese characters (in the Han script), which mix both Simplified Chinese and Traditional Chinese.
regex, unicode, cjk
呃,我发现这个\p{Han} ,在Emeditor里用regular expression,是行得通的。
有兴趣的人可以用这个附件的文本试一下。
test.zip (901 Bytes)
用Emeditor里打开这个文本,选择find,贴入\p{Han} ,在regular expression的框里打勾。
2 个赞
谢谢你的指点 自己对编辑词典有兴趣 最近才摸索着 谢谢你
1 个赞
jcz777
2024 年11 月 2 日 01:07
10
Emeditor的正则引擎要更换成Onigmo才行。在Emeditor(V21),\p{Han}
只匹配到F区,后面的GHI匹配不上。而且也还有一些没有匹配上:
鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼鿽鿾鿿䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿𪛗𪛘𪛙𪛚𪛛𪛜𪛝𪛞𪛟𫜵𫜶𫜷𫜸𫜹
Em的Onigmo引擎还是有点老,不知最新版本怎么样。
1 个赞