【铸剑计划】武侠小说语料组延揽侠友

有人对武侠小说感兴趣的吗?我准备了一千多本的小说(大部分为武侠小说,小部分评话、历史小说),均为原生pdf格式文档,需要招募合作者一起用【扫描全能王】OCR转制成txt。计划招募二十个人左右,一个月内转制完毕,使用【扫描全能王】电脑端批量扫描批量转换,点点手指的功夫,不知道有人感兴趣吗?需要几个认真负责的伙伴,到时候我依据各自空闲时段分派扫描任务,大家共用账号,扫描成果也是在少数贡献者之间共享。
扫描最终成品——txt文档,我预想的利用路径是可以充作模型微调语料,在基底大模型之上进行微调,炼制出武侠小说特化模型,进行AI小说风格化续写。当然,也可以利用诸如Antconc的语料库软件装载后进行语言文学方面的文句、字词分析。
个人武侠小说收藏截图


扫描全能王扫描实例
【超级会员V1】通过百度网盘分享的文件:【宝琦】飞天侠女…等2个文件
链接:https://pan.baidu.com/s/1ztJfKhau5RxHJXzTrqcJBA?pwd=st93
提取码:st93
复制这段内容打开「百度网盘APP 即可获取」
AI模型续写生成实例
生成文本.txt (5.7 KB)
生成文本(1).txt (5.3 KB)

3 个赞

感觉扫描部分技术门槛不太高诶,想加入!

2 个赞

如果有民国以前的小说,我很感兴趣加入

有abbyy 的finereader,能ocr
扫描全能王没有高级账号

1 个赞

民国小说我扫了一大部分了,现在就差大陆八九十年代这一部分。你如果加入,到时候完事我一并转给你呗

1 个赞

我有开通会员账号,到时候大家共用

你搜下我QQ号——1332320580,我拉你进群

之前梦远书城网站有大多数新旧经典武侠小说

那可以的,拉我进去

搜我qq,上翻留言,我留了号码

1 个赞

民国我新近扫描的,很多网上都没资源

有的pdf中文字能复制,有的加密禁止复制,可用软件破解,有的是纯图像,没办法复制文字,建议丢弃,网上武侠小说不少,可下载txt、epub、chm等格式电子书,OCR是下策,识别率再高,也有瓶颈,需要校对,很费时。abbyy finereader识别率还可以,但似乎微信更高,而且更快,但二者效率都不是很高。

你说的这几个扫描工具我都用过,论起扫描精度的话还是以扫描全能王为最优 :sweat_smile:还有我收藏的pdf都是原生pdf文档,我自己一本一本读秀下载的,网上几乎找不到流出资源,因为大多数是八九十年代的小说,还是大陆作家作品,作品出版时间处于新旧过渡时期,关注热度不如旧派也不如新派,不如香港也不如台湾。

2 个赞

支持楼主,贴一下中文gpt2.0

续写生成模型我用的rwkv