用Finereader第11版。辨识率还行。难字会弄错,检索上下文不会辨识错的部分,可以找到所需文本的。
《全宋文》、《全宋诗》、《全宋笔记》我都做过。《全宋诗》图像不清晰,效果不好。另外两套书基本上能用。
《全宋诗》有北大的数据库。
《全宋文》,国学公司做过唐宋文数据库。假如肯花钱,是买得到的。
这种大套书的ocr,有人做来卖的,数典有人兜售过。但是拿来卖的人只卖你ocr文本,那是很难用的。自己做的,每页文本对应图像,由文本找到图像,更正文本后再引用,那是没问题的。文本只是用来定位图像,不能代替图像。