将作大匠
1
有人对武侠小说感兴趣的吗?我准备了一千多本的小说(大部分为武侠小说,小部分评话、历史小说),均为原生pdf格式文档,需要招募合作者一起用【扫描全能王】OCR转制成txt。计划招募二十个人左右,一个月内转制完毕,使用【扫描全能王】电脑端批量扫描批量转换,点点手指的功夫,不知道有人感兴趣吗?需要几个认真负责的伙伴,到时候我依据各自空闲时段分派扫描任务,大家共用账号,扫描成果也是在少数贡献者之间共享。
扫描最终成品——txt文档,我预想的利用路径是可以充作模型微调语料,在基底大模型之上进行微调,炼制出武侠小说特化模型,进行AI小说风格化续写。当然,也可以利用诸如Antconc的语料库软件装载后进行语言文学方面的文句、字词分析。
个人武侠小说收藏截图
扫描全能王扫描实例
【超级会员V1】通过百度网盘分享的文件:【宝琦】飞天侠女…等2个文件
链接:
https://pan.baidu.com/s/1ztJfKhau5RxHJXzTrqcJBA?pwd=st93
提取码:st93
复制这段内容打开「百度网盘APP 即可获取」
AI模型续写生成实例
生成文本.txt (5.7 KB)
生成文本(1).txt (5.3 KB)
3 Likes
有abbyy 的finereader,能ocr
扫描全能王没有高级账号
1 Like
将作大匠
5
民国小说我扫了一大部分了,现在就差大陆八九十年代这一部分。你如果加入,到时候完事我一并转给你呗
1 Like
将作大匠
7
你搜下我QQ号——1332320580,我拉你进群
大庆油田
12
有的pdf中文字能复制,有的加密禁止复制,可用软件破解,有的是纯图像,没办法复制文字,建议丢弃,网上武侠小说不少,可下载txt、epub、chm等格式电子书,OCR是下策,识别率再高,也有瓶颈,需要校对,很费时。abbyy finereader识别率还可以,但似乎微信更高,而且更快,但二者效率都不是很高。
将作大匠
13
你说的这几个扫描工具我都用过,论起扫描精度的话还是以扫描全能王为最优 还有我收藏的pdf都是原生pdf文档,我自己一本一本读秀下载的,网上几乎找不到流出资源,因为大多数是八九十年代的小说,还是大陆作家作品,作品出版时间处于新旧过渡时期,关注热度不如旧派也不如新派,不如香港也不如台湾。
2 Likes