根据unicode码表可以区分不同语言的文字,如果要删除中文,几句python代码就可以。
0x4e00-0x9fff: 普通中文字符范围
0xff00-0xffef: 中文标点符号和特殊符号
import re
text = 'a large church 大教堂'
pat = re.compile(r'[\u4e00-\u9fff\uff00-\uffef]')
newText = pat.sub('', text)
print(newText)
根据unicode码表可以区分不同语言的文字,如果要删除中文,几句python代码就可以。
0x4e00-0x9fff: 普通中文字符范围
0xff00-0xffef: 中文标点符号和特殊符号
import re
text = 'a large church 大教堂'
pat = re.compile(r'[\u4e00-\u9fff\uff00-\uffef]')
newText = pat.sub('', text)
print(newText)