如何能保持版式的情况下把繁体pdf转中文简体

比如旋元佑文法,很好的一本书,能找到有文本层的pdf 繁体版,如何能把这个繁体版转成简体版又尽可能保持原版式?

建议不要,抱持学英语的态度,来学习繁体字就对了,看久了就习惯了。等你习惯之后,会发现以后看繁体书都海空天空了。

我自己看繁体没有任何问题,是我刚上高中的孩子还有困难。另外也是想从技术上学习一下,到底怎么样能变简体还尽量原汁原味。特别是已经有文字层的 pdf,怎么样利用文字层

如果是图片版PDF,基本不可能。文字版有可能。

很难。首先pdf自带文字层基本是ocr出来的,包含的错误往往很多,应该远比不上用最先进的模型重新ocr一遍。可以试试复制文字,粘贴到word里面,看看文本的正确性和版面的保持程度如何。即使完全正确,繁简字的转换可能相对容易些,有成熟的方案。但是惯用语的替换有长度不一致的问题,版面完全保持也会是个问题。

繁体字没特意学习过,但是自然而然就认识。可能普通书籍里用到的大部分字,和简体是一致的,还有大量的字有部分是认识的,结合上下自然就知道什么意思了。

随便拿个pdf,你看看,自己用鼠标键盘啥的,能不能全选,如果能的话,应该是嵌入文字的,这样的,单纯处理文字的,能简单点儿,有的是工具,不能支持键盘鼠标块选择的话,应该是图片扫描的ocr格式,这样的,比较操蛋点儿,得先给图片转换成文字,再扯上文字处理的,新手呢,有这个处理能力,也是一堆随后闹心巴拉的文字校对的磨人的事儿。与其这样,你自己还不如在论坛网络里找找看,是否有其他的同名同类的已经处理好的文档,别自己张罗怎么造轮子了。使用工具啥时候都不是难事儿,难的都是最后一公里的工具和人衔接这块。

感谢各位建议。繁体转简体没问题,就是版式保持太难了。放弃了。