就abbyy findreader pdf 14这款软件,使用〖修剪〗功能,先裁切奇数页,再裁切偶数页,而后拼接在一起,页数扩展了一倍,之后使用同款软件〖擦除〗功能,擦除单音节词词条文本,齐活了。这几步很重要,因为我不是使用abbyy进行ocr作业,而是改用识别率更高扫描全能王,单单就版式简单的横排简体中文文本而言,扫描全能王的识别准确率远优于前者。
这是拆零再重组的成品,你看下——
hi,这是我用百度网盘分享的内容~复制这段内容打开「百度网盘」APP即可获取
链接:https://pan.baidu.com/s/1ZG-BoTrxC39kM6AL1S5W1A
提取码:56ue
有试过讯飞OCR吗?那个对拼音识别也很好,就是不知道怎么在电脑上用。
讯飞太拉胯了,感觉不如扫描全能王高效……
谢谢指点。我的finereader版本比较旧,不知道有没有这个功能,研究看看。
谢谢分享,但我无法使用百度盘,看不到你分享的东西。
微信留一个,我传给你。顺便探讨下文档进一步修正的问题。
呵呵,我可能是现在很少见的很传统的人,用电脑(能编程)但不用手机,所以多年前能用百度盘,现在大陆的什么盘都不行了),没用过微信。
哥哥,你是港澳台哪人啊这年头竟然还有人不用手机的……你电脑也可以下载百度网盘和微信啊,不是有windows桌面版那
百度盘电脑客户端也要手机认证的。微信可能没问题,只是没有需要,所以不用。
那就尴尬了
没事,知道了就好。
据我所知,台大哲学系教授傅佩荣是没有手机的。
傅佩荣:我不排斥一切有价值的思想 - 新浪财经
2016年11月4日 — 傅佩荣先生长期以来奉行“四不一没有”的生活模式,即“不碰政治、不上电视、不应酬、不用电脑,以及没有手机”。
没手机的人在大陆,在我这里,大概都像二等公民吧。但是就不当手机的奴隶。
属实不是很理解,所有这些东西都是人类的工具而已,不想当手机的奴隶,可以当手机的主人。
扯开了话题,抱歉。言归正传,报告几个新发现的问题:
《现汉7》
庐山真面目 Lú Shān zhēn miànmù
宋代苏轼《题西林壁》诗:“横看成岭侧成峰,远近高低各不同,不识庐山真面目,只缘身在此山中。”后来用“庐山真面”借指事物的真相或人的本来面目。也说庐山真面目。
少实斋按:“也说庐山真面目”当作:“也说庐山真面”。《现汉2》规范词形为“庐山真面”,《现汉6》规范词形为“庐山真面目”。
《现汉7》
泰然处之 tàirán-chǔzhī
见196页〖外之泰然〗。
少实斋按:“外之泰然”当作“处之泰然”。
《现汉7》
铁帽子王tiěmào•ziwáng
名清代封爵制度中称世袭原封爵位、无需降等的王爷,比一般的亲王享有更优厚的待遇和特权丨比喻用法反腐败坚持全覆盖、无禁区、无上限,任何人都没有丹书铁券,也不是~。
按:“丨”,原书作“<>”。这种情况还看到别的例子。不知道楼主是否有意改的,提一下吧。
因为我是打五笔的,所以有时候打字快的时候“处”和“外”习惯性的打错了。
其它的问题已记录,将来会改正。
这个处理方法有意思,规范词典mdx直接用的◇,大概也能做成这样?
哥们,要不要进我建的汉语词典数字化交流群,以后有什么感兴趣的都可以在群里讨论讨论
我个人觉得直接用◇,保持词典原貌是最好的。
在正文里加了一些非原书的字,即使对了图像再引用,假如没注意到,就是一个坑。
当然,我不是在批评楼主。自己做电子书就图个自主、自由,楼主高兴怎么做就怎么做。楼主既然分享了,各人可以各自改了自用。
都可以。
其实“比喻用法”这个标注可以在CSS里头设定。
都是排版上的小问题,重要的是文本本身的准确性
我也觉得未必一定要保持词典原貌,楼主改后更直观,又没有破坏文本的准确性。要不如果词典多,各有各的符号,增添很多无意义的记忆量