想OCR一份PDF文件,但页面边缘经常有文字,如图,红框文字部分如何移除?(不移除的话,影响OCR效果)
finereader有个修边
Quite Imposing Plus
qiplus4C.rar (1.4 MB)
放到 Adobe\Acrobat 11.0\Acrobat\plug_ins
这个工具有个胶带功能,可批量可指定去除。
先转pdf成图片,再用ComicEnhancerPro分成左右页,分别切边
是这个功能吗?
这个放到插件文件夹,重启Acrobat后,入口在哪里
没有找到入口
系统:macOS
软件:Adobe Acrobat
页面的宽度、高度都不一样(因为这些页面已经是切过一次的了,不是PDF原始页面),适用于用ComicEnhancerPro切边吗?
有的图片边缘是正常的,不需要切边。有的文字是右侧边缘的上半部分,有的在下半部分,这种复杂情况不知道ComicEnhancerPro可以处理吗
看pdawiki上这个教程里,好像需要设置页面宽高之类的
边缘文字不固定,有些页面甚至没有边缘文字(不需要处理的那种)
qiplus4C 的入口在上面菜单栏的增效工具里。
你这反正是要OCR的,只要保证主体内容都在就可以了,还是用切边工具方便。
对于没有多余内容的页面,看有没有留边,没有切到主体内容就行。
如果边距有问题,我能想到的就是分解页面,人工把需要切的挑出来,1000页内要挑出来还是很快的(用看图软件)。
Quite Imposing Plus 4.0
第1步:解压文件;
第2步:复制文件【qiplus4】到Acrobat软件安装目录下的【plug_ins】文件夹内:
64位:C:\Program Files (x86)\Adobe\Acrobat DC\Acrobat\plug_ins
也可以这样找位置:桌面>>找到acrobat软件图标>>右键>>属性>>打开文件所在位置>>plug_ins文件夹内
第3步:【转中文】打开PDF软件>>增效工具>>Quite Imposing Plus-control panel(菜单第1项)>>Preferences>>Setlanguage>>中文>>OK;
第4步:重新打开Acrobat软件,安装全部成功;
这么复杂!ComicEnhancerPro肯定不行的
ComicEnhancerPro 完全可以胜任:可以有共性的处理,也可以每一页都不同。
好,我去研究下。谢谢
感觉不太会用 有没有视频教程之类的
你这每页大小都不一样,这是哪位神人做的PDF文件? 不会就是直接图片转的吧?
人工来吧,或是找找源文件可能还快点。
实在找不到源文件的,还有一招,众筹………。
要不你把文件发出来,说不定有些无聊打发时间的人呢。