我赞同这个看法。我就是这样校改2.0光盘版的。目标不是做个完美本,只是要求文本慢慢有点改进,学问增加了一些,电脑技术也进步了一点。
目标是学习,不是做出完美的版本。
现在哪有完美的版本?总汇的版本只是相对完善的第1版。第2版的文本根本还没上网。全书未做完,已经做完的也还没上网。
但是这样顺其自然地慢慢做,可能做十年也未必能做完。
所以我不看好有人能做出一个完美的版本。
有些旁观的人不管,只是想得到别人改进的版本,不管到底改了多少。就是执着。
其实没改多少,可能就改了千分之几的内容。
我赞同这个看法。我就是这样校改2.0光盘版的。目标不是做个完美本,只是要求文本慢慢有点改进,学问增加了一些,电脑技术也进步了一点。
目标是学习,不是做出完美的版本。
现在哪有完美的版本?总汇的版本只是相对完善的第1版。第2版的文本根本还没上网。全书未做完,已经做完的也还没上网。
但是这样顺其自然地慢慢做,可能做十年也未必能做完。
所以我不看好有人能做出一个完美的版本。
有些旁观的人不管,只是想得到别人改进的版本,不管到底改了多少。就是执着。
其实没改多少,可能就改了千分之几的内容。
我现在优化了下思路,直接用光盘版复音节词词条文本与夸克OCR文本对勘,就着WPS审校界面现核现改,预计一个人一天八小时全力输出的话,八天左右可以完成一卷。不过我明天春节复工返岗,接下来只有周末可以抽出一天来,工作日每天晚上半小时到一小时可以利用,蛮试试看完成一卷审校的工作量有多大吧
以下是第六卷刚起步,校改到第六页:
文字文稿=汉大06a1【20250204:1135】.docx (904.1 KB)
AI助校短时间内还没办法成为校对主用工具,哈哈,我是这么看的,之前看别人Deepseek演示联网搜索AI都能正儿八经的报出一些似是而非的书名,跟作者根本对不上,还是难堪大用……
老兄的精神实在让人感佩,能不能先加进我建的一个群从长计议,群里的几个大咖也可能会给出更好的建议。加群时请注明论坛ID。
点击链接加入群聊【中文辞典交流群】:正在跳转
最好拿单页试一下,一页多少个字符,文本识别错误率多少,校对完成要多少时间,一卷多少页,这样方便估算工时。
这个不好用单页去估,因为有的根本不需要改。都是跳着改的,各页面需要改动的地方多寡不均……
测试个三页平均下,这种书一页超过五处错误就可以考虑放弃了。
我把第六卷对校文本分割成较为平均的八等份,看我一天能不能完成一份,就好估量了
校对《汉大》这工作量也太大了点 OCR的精度也就那样,标点和序号要改起来也很头疼啊
觉得可以这样,同一页图片,同时用一家以上OCR供应商进行识别,再比对识别结果,重校对有差异问地方,是不是可以减轻工作量?
不然,工作量是挺大,实际校改起来主要费眼、费腰、费颈椎,消耗不了多少脑力
选用光盘本作为底本,一校用夸克OCR文本,二校用扫描王OCR文本,也就差不多了
身有体会。在网上找了五千多字体合成数据来训练OCR模型,正在校对字体中的错误字符,第一轮筛选出十五万张问题图片,这两天才校对了几个字,看的眼睛疼
这个校对就是孟夫子所谓的“为长者折枝”之类的事,不难,难的是有心 汉大我感觉真没大家想的那么难,我想要的是一个趋近于第一版纸书的版本,并适当根据使用习惯略作修改
你找一个有文字错误的让kimi试试,我能找到的都是格式错误的。Deepseek我试了确实不行,可能各有所长。
汉语大词典词条编号是黑底,基本上很难准确识别,校对基本上就是处理这些编号,一小时弄不了几页。
不试了,意义不大。你看下我今天一天(10小时)的成果吧,校改进度到《汉语大词典》原书第六卷180页“涛”字条了,还算ok,没遇到什么太大的阻碍,主要我有辞典总汇账号,可以现截缺失词条书证,效率快很多
校稿净本=汉大06a1【20250204:2038】.docx (657.3 KB)
这是校稿,你们对照着看看
给你发好友申请了,我QQ不太常用
我是直接在光盘版上进行核校的,而且夸克对于黑底数字序号识别10以下准确率还是很高的。这块改也就是点点鼠标的事
符号编号拼音字符生僻字格式对齐都很麻烦,还要录入补齐就更难搞了,很难快起来。
汉语大词典总共 5000 多万字 15400 页,每页平均下来是 3200 字,一页录入完算你 5 分钟,这是快还是慢?15400 页就是 1284 小时,每天 8 小时就是 160 个工作日,算上双休就是 32 周 7.5 个月。
没事,等集齐20人再来开搞,不着急。20个人每周花个10小时,两个半月差不多能搞定