有的地方图像版确实是用了“also put as”(单用英文,没有“也作”,纯汉语版是有“也作”的),如“义无反顾”条。
有的地方用“也作 also”。挺乱。
8mb版有52个“also put as”,9mb版有59个“also put as”。
图像版自身的用词不一致。没办法统一替换,只能由它去了。
有的地方图像版确实是用了“also put as”(单用英文,没有“也作”,纯汉语版是有“也作”的),如“义无反顾”条。
有的地方用“也作 also”。挺乱。
8mb版有52个“also put as”,9mb版有59个“also put as”。
图像版自身的用词不一致。没办法统一替换,只能由它去了。
小伙伴们要注意:这是《现汉2》,要学习汉语推荐用《现汉7》。《现汉2》太老了,有些词语已经过时了。
那个阉割版只有几十个私用区字,有些是从旧版的私用区字,换成另一种私用区字。
阉割版我自己是绝对不会用的。不过,不挑剔的人把那几十个私用区字替换了,将就随便用用,我想是可以的。
免费餐,就别挑剔了,有什么吃什么。
我知道这书后面有千多条后来进了《现汉5》的词条,但是其主体部分无疑是《现汉2》.。《现汉5》都算旧了,有《现汉7》就不用《现汉5》了。《现汉5》有些词,《现汉7》又淘汰了。
好吧,不说是《现汉2》,是《现汉4》好不好?《现汉4》比起《现汉2》没有太多不同(《现汉5》才有大改变)。还是太老了。
我说这话是有第一手经验的,比对过独立的《现汉2》、《现汉5》和《现汉7》和这书的文本。这三个版本我都有数据库。
你可以不同意我的看法,但我认为我的提醒没错。应该用《现汉7》而非此书来学习汉语。
这书的价值主要是:做汉英翻译时可以参考,用来学一点英语也行。
但是,不适合用来学习汉语。
假如你研究过,有第一手的经验,可以说你自己的看法。不要只贴个图当作反驳。
用图像做证据,来支持议论,是很好的。但是,不能什么都不说,只用图像来代替议论。这是论坛,不是贴图平台。
(我看了一下我收的纸本,从第5版开始才标号码。所以,说《现汉5》、《现汉6》、《现汉7》没问题。《现汉2》这个提法是有问题的——至少是含糊不清的。虽然从《现汉2》以来没有大改变,但是修订、增订的假如不算新版,难道忽然从2版跳到5版?《现汉5》以前的版本应该说年份就好。)
谢谢指出,不然可能没看到。“不锈钢”是乱码。“螟虫”的下面其实是“螟蛉”,掉了词头,“螟蛉”被“螟虫”吃掉了。
当然,“螟蛉”本来的内容也出现了乱码。
这两条,9mb版都没问题。所以9mb版在内容上也是有优点的,不是只有版面漂亮。
搜索:
word>?
又找到5条类似的问题词条。
bīngxiǎn
zuòchán
dàiqiè
shúshú
fúcòu
8mb版还掉了这些词头的词条分割符号:
<word>钳(箝、挩?/word>
<word>疡(?/word>
<word>变(专?/word>
<word>厉?num>6.髀?/word>
<word>昼(暔?/word>
<word>浸(尐?/word>
<word>迩(擗?/word>
<word>鸶(?/word>
<word>趑(讪?/word>
<word>傻(儴?/word>
<word>拃(摠?/word>
<word>鼍(?/word>
8mb 版有私用字的词头:673
9mb 版有私用字的词头:665
pua.zip (3.0 KB)
假如没时间改全部私用字,可以只改词头。
《现汉》2002
𱇣
[𱇣𱇣]〈书 fml.〉鱼跳跃的样子。
《现汉7》
𱇣𱇣 [bōbō]
〈书〉[拟声]形容鱼跳跃或摆尾的声音。
就算是这种古老的书面语,《现汉》的解释也在改变。
AlexPeng的速度超级快,我在慢慢弄,偶尔加一两条校记,现在只改掉了百多个私用字。
你这个替换表既然出来了,我准备做成Emeditor的批量替换表,剩下的私用字就直接替换了。
我的看法是:假如要好用,还得把那些“~”都还原为字,然后把短语都提取成词头。那么,这本词典丰富的短语就都可以检索。
跳转可以从别的《现汉》版本中搬一些过来。
“短语”看着像在说英语
搜“?num”,大约有十几条有问题。
“八卦”中的八卦符号都错了。
汉语是有“短语”这个词的,比较少人用,但倒不是英语。
《现汉7》
词组 [cízǔ]
〖名〗语义和语法上都能搭配的两个或更多的词的组合,口语中没有句调,书面上没有句末标点(区别于“词”与“句子”),如“新社会,打扫干净,破除迷信”。也叫短语。
《新世纪汉英》
〖词头〗短语
〖注音〗duǎnyǔ
〖名〗phrase; expression
〖例证〗短语动词|phrasal verb
〖例证〗短语结构|phrase structure
把做好的Emeditor替换表上载到这里:
em-batch.zip (15.6 KB)
查了有“+”号的字,改了:
𬳳
𫎬
𬴐
𢽾
𬭲
㴩
𫏐
𫜬
𤞶
操作方法如下:
1.选择Excel中所有数据,复制。
2.在Emeditor中,Search — Replace in files。
3.点按右下角的“Batch”,打开隐藏的宽阔界面。(假如你的界面本来是隐藏的。)
4.假如替换表中有数据,先选择一切数据,删除。(Right-click, Select all, delete)
5.复制Excel中的数据,通过剪贴板粘贴到Emeditor的替换表中,直接就能用了。(right-click, paste)
6.在FileExplorer中把词典文本放到一个临时文件夹中。
7.在Emeditor左边In folder选择待词典文本所在文件夹。File types选择*.txt。
8.点按右上角的Batch Replace All。注意,过程不可逆,所以不要选错了文件夹、替换了错的文本。
为了安全,可以勾选“Keep modified files open”。那么,假如后悔,不要保存文件。
我自己手头上碰巧有一本这本字典的纸质版,当图着省事儿,拿来8m的这个数据文件当数据源,做个反查工具在自己的背单词的小工具里,也遇到了同样的字符乱码,字符方格占位符的问题,期间加过若干字体,发觉不是字体的事儿,也不是字符编码的事儿,是在数据源这块,数据切入的时候,就有问题。大概统计一下,有这种方格占位符的大概580~590多个,也没啥别的办法,手动一个个的改动,校对。过程,相当酸爽。。。
校对表如果出来的话,可以直接拿python写个循环字符替换脚本的。反正也没多大文件,解压完了才三四十兆的,直接一次性读入个字符串里,然后循环读行,替换就是了。有了这个校对表,省老了事儿了。。。
谢谢老大!!!