中文文本纠错资料
我想找一些中文纠错的资料,看是否能汇集整理,做个文本mdx。
看到网上的相关数据链接,可能用得到的,就先记录在这个专题中吧。
这不是我推荐的数据,只是先记录待查看的链接。挺多的,没办法先看完,我也无法全看完啊。只想挑一些能整理的资料使用。
欢迎大家补充所知道的资料。
中文文本纠错数据集汇总
阿里云天池
2022-09-29
中文文本纠错资料
我想找一些中文纠错的资料,看是否能汇集整理,做个文本mdx。
看到网上的相关数据链接,可能用得到的,就先记录在这个专题中吧。
这不是我推荐的数据,只是先记录待查看的链接。挺多的,没办法先看完,我也无法全看完啊。只想挑一些能整理的资料使用。
欢迎大家补充所知道的资料。
中文文本纠错数据集汇总
阿里云天池
2022-09-29
《咬文嚼字》“语文差错经典案例”汇总
华东师范大学语言文字网,2019-12-10
来源:“咬文嚼字”微信公号
编辑发稿中最容易错的字大汇总
中华人民共和国财政部河南监管局
发布日期:2015年6月4日
http://ha.mof.gov.cn/zt/djzc/xxyd/201506/t20150604_1252525.htm
按:此为咬文嚼字《编辑发稿中最容易错的字大汇总》,网上常见,但不容易找到齐全的,这个财政部的资料似乎比较齐全。
这篇有点过时了,只收到2018年。前些天有坛友做了一份到2024年的文本mdx。
文本纠错是一个大坑,特别是涉及异形词的时候,争议会非常大。
比如《错别字辨识手册》(刘配书等,2024)以“头昏脑涨”为正字,“头昏脑胀”为误字,《现代汉语规范词典(第4版)》(李行健主编,2023)则为“头昏脑胀”立目,未收“头昏脑涨”。
《第一批异形词整理表》(2001)规范了三百多组争议较小的异形词。《第二批异形词整理表》2003年就出了草案在出版行业内试行并征集反馈意见,结果二十几年没有定稿,意见分歧之大可以想见。
这两个表中都未规范的异形词还有很多,如“仓猝—仓卒”、“糨糊—浆糊”、“翻版—翻板”等,争议恐怕就更大了。
涨现在一般老百姓就念第三声,胀念第四声,这样分化词义,避免多音字的混乱。之后肯定会被主流词典接受的
不对,涨有个念四声的常用词“涨红了脸”,极少用胀字。根本分化不了,也不必分化。
你这么一说也是。不过也还是有,微博一搜就有。没那么多而已
国家语委可以构建一个大型现代汉语语料库,当变体词与主词频比超过某值则承认之,推荐大众与出版使用。所有争论都留给学界。
假如只是想表示赞同,点赞就可以。
在同一个专题下,不要单纯引用而重复别人的言论,那样会浪费论坛宝贵的存储空间。
要有节约意识,提倡互联网的环保意识。
假如要引用,请加以评论。