如何删除PDF页面边缘的文字

想OCR一份PDF文件,但页面边缘经常有文字,如图,红框文字部分如何移除?(不移除的话,影响OCR效果)

1 个赞

finereader有个修边

Quite Imposing Plus
qiplus4C.rar (1.4 MB)
放到 Adobe\Acrobat 11.0\Acrobat\plug_ins

这个工具有个胶带功能,可批量可指定去除。

2 个赞


这个?几页或者位置相对固定的是可以的,大量且随机的话会有些麻烦。。。

先转pdf成图片,再用ComicEnhancerPro分成左右页,分别切边

是这个功能吗?
telegram-cloud-photo-size-1-5127690236002937701-m

1 个赞

这个放到插件文件夹,重启Acrobat后,入口在哪里
没有找到入口 :joy:

系统:macOS
软件:Adobe Acrobat

页面的宽度、高度都不一样(因为这些页面已经是切过一次的了,不是PDF原始页面),适用于用ComicEnhancerPro切边吗?
有的图片边缘是正常的,不需要切边。有的文字是右侧边缘的上半部分,有的在下半部分,这种复杂情况不知道ComicEnhancerPro可以处理吗

看pdawiki上这个教程里,好像需要设置页面宽高之类的

边缘文字不固定,有些页面甚至没有边缘文字(不需要处理的那种)

qiplus4C 的入口在上面菜单栏的增效工具里。
你这反正是要OCR的,只要保证主体内容都在就可以了,还是用切边工具方便。
对于没有多余内容的页面,看有没有留边,没有切到主体内容就行。
如果边距有问题,我能想到的就是分解页面,人工把需要切的挑出来,1000页内要挑出来还是很快的(用看图软件)。

Quite Imposing Plus 4.0

第1步:解压文件;

第2步:复制文件【qiplus4】到Acrobat软件安装目录下的【plug_ins】文件夹内:
64位:C:\Program Files (x86)\Adobe\Acrobat DC\Acrobat\plug_ins

   也可以这样找位置:桌面>>找到acrobat软件图标>>右键>>属性>>打开文件所在位置>>plug_ins文件夹内

第3步:【转中文】打开PDF软件>>增效工具>>Quite Imposing Plus-control panel(菜单第1项)>>Preferences>>Setlanguage>>中文>>OK;

第4步:重新打开Acrobat软件,安装全部成功;

这么复杂!ComicEnhancerPro肯定不行的

菜单栏里没有增效工具。
是不是因为插件是Windows版的插件,感觉不太对,截图里其他插件都是目录

切边工具是不是需要页面大小都一致
目前切出来的PDF页面大小不一样:

有的页面边缘完全没有空白:

ComicEnhancerPro 完全可以胜任:可以有共性的处理,也可以每一页都不同。

image

1 个赞

好,我去研究下。谢谢:pray:

感觉不太会用 :joy: 有没有视频教程之类的

1 个赞


第一步,拉个方框,确定目标内容块的大小。
第二步,指定好宽和高,记得留下足够的余量。
参数参考下图。

然后应用起来,间隔2
注意,这个是奇数页,靠左。偶数页就要修改成靠右

你这每页大小都不一样,这是哪位神人做的PDF文件? :goutou:不会就是直接图片转的吧?
人工来吧,或是找找源文件可能还快点。
实在找不到源文件的,还有一招,众筹………。 :joy:
要不你把文件发出来,说不定有些无聊打发时间的人呢。 :grin:

源文件是这样的:
之所以每页大小不一样,就是因为每一页都是下面红框扣出来的…
不然直接处理源文件的话,因为每一页的两栏并不是直接可以裁剪的,有些栏的有些内容会有凸出部分…比如截图里第二个小红框,宽度就比其他红框要宽一些。

这种页面布局直接用ComicEnhancerPro操作原图的话,好处理吗