本贴非拉人头帖子,会把我OCR后校对的文本发上来,有同好的一起讨论的帖子。
目前的进度是全部OCR完了往回装,逐行、逐列校对。
逐行装回去保证不落行,不丢字。校对起来方便(装回去了800了)。
校对到了91页,校对起来过程还算行吧
最终能弄到哪里算哪里,通过前期的过程感觉到这货要消耗的工作量少不了,但怎么说也要有个开始。
本想一百页一发,刚开始慢还累就先弄到这了。
前期还是试着弄,是把OCR完的全装回去完事了校对,还是一边装回一边校对,都没想好呢。
0001–0091
0001–0091.txt (1.3 MB)
接着填坑
2024.12.10
这种也有、随手录
2024.12.13
回填一个月7-8百頁左右的量(利用空闲时间)。
2024.12.18
偶尔发现,OCR拿过来的编码点下保存再取消,基本区外的都是高亮红显示。
2024.12.20
2024.12.21
笿
1500頁过后大批量这种,基本区脸盘大的反而都错的,字里行间的却一切正常。
2024.12.25
短11项
2024.12.26
P:1792 第2列中上
都是这样对对错错,速度快不起来啊!合合也呵呵呵啊 ,MLGT的,绝对当班喝酒上岗干的。
2024.12.29
怎么闹,既然文本电子化了,应该统一下好。新旧也就算了,这种混排乱乱的
2024.12.31
这种撸一撸应相当的板扎
2025.01.02
今年的任务完成啦、可以下班啦!!!哈哈哈
2025.01.05
八百多、一千多填入时看后面还要一堆要回填(慢慢来,债多了不愁)。可过了2000页后看就剩下600多了,这小半个1000页也没多少。就不墨迹啦弄完进行下一步校对,离当初的想法又近了一步。
2025.01.09
怎么弄啊???
2025.01.12
2025.01.13
查不到这个字(足刃刃止止)。
发现个安装字体的app(iOS)
不用拆开字体直接装,我一开始只装拆开的
还是有部分显示方块。
今天用了最新的部件檢索,索性把字体也重新装了,
用了下完美。也是试出来的东西。手机上有显示不出来的(iOS)可以试试。
2025.01.16
P:2165左下 应该是 「犭艹」𤡞吧???