PDF砖家
1
《王力古汉语字典》是我阅读文言时常用的工具书,之前一直用读秀版的pdf,扫描质量较差,且检索不便。
前几天偶然在论坛搜到一个高清版本,动了继长增高的念头。今天初步打磨完毕,请坛友检阅。
感谢 yikelee自扫的高清资源,在其基础上进行了黑白化+锐化+矫正倾斜,体积从2GB精简为不到400MB。
论坛常用的格式是mdx,可以方便地检索。如何利用这些现成的资源,我琢磨后,想到了一个新点子:把mdx通过MdxExport提取为txt,复制到word中排好版,然后转换成pdf,再加在图像版的后面,这样用pdf也可以快速检字。用的是
登徒浪子制作的
mdx,感谢!
链接:
https://pan.baidu.com/s/1iV8NBPf2nZ7KqB60999zYQ?pwd=uypp
提取码:uypp
8 Likes
aimdict
3
倒是高清pdf。这种词典即使ocr,也很难检索准确吧。
PDF砖家
4
检字表已经加在了图像的最后面,文件可以直接搜索单字,只要能打出来且字符编码对得上,就能搜到页码。
但pdf毕竟和mdx不同,没法直接跳到对应的页数,页码得手动输入。就像在拼音检字表里查到字,也还得手输页码才能跳转。
PDF砖家
5
如果全部ocr,反倒不好检字了。每个单字局部ocr,那操作量太大。
aimdict
6
是的,全部ocr没有多大意义。手输页码也没关系,但关键就是,给出的页码对应不上,比如查到一个字在430页,跳转到430,并不是那个字,这样能检索也就没有意义了。喜欢读词典的人,可以当作一本不错的pdf图书在电脑上阅读吧。其实很简单,比如词典的第1页,pdf的页码已经是116页。我知道有pdf工具能调整一下页码,但我自己没用过。
PDF砖家
7
那应该是不同软件的问题,有的pdf软件显示相对页码(比如福昕),有的显示绝对页码(比如万兴)。我设置的基准页是116,这一页在福昕就是1,但在万兴就是116。
您可以看一下封面显示的页码是什么,如果是A,那这个软件就是显示相对页码;如果是1,那这个软件就是显示绝对页码。
aimdict
8
是的,可能是不同软件的问题吧。刚刚换阅读器试了下,稻壳阅读器可以显示相对页码。谢谢,这个pdf制作得不错!
PDF砖家
10
首先得找到不错的扫描资源,像读秀那个版本,就没法优化。下载后,把文件打散成图片,用cep处理,再合并起来。
开心每一天
11
论坛已经有整页图片检索版,如果mdd换成这个高清版就好了
登徒浪子
13
他的方法其实跟词典的搜索方式一样,他是在pdf里面加入书签了,检索书签定位图片,本质属性是一样的
登徒浪子
14
mdd其实就是压缩包的一种形式,mdd里面其实就是一张张的图片
PDF砖家
16
如果用老兄的mdx,把我处理的图像改成mdd,那就是挺清晰的词典了
开心每一天
17
这个mdd是用什么软件转呢?是直接把清晰图片通过某个软件转成mdd就可以了么?还需要别的操作不?
jcz777
18
MDD可以看作压缩包,它只是打包,可以打包任何文件。它并不能改变图片清晰度。
批量处理图片,可以用PHOTOSHOP、老马的CEP(ComicEnhancerPro)等工具。相比来说,用老马CEP比较方便快捷。经处理后清晰度能明显提升,但比较有限。如果图片本身质量不佳,那提升度应不明显。被彻底黑白两值化的,处理应更难的。
另外,如果你办法用AI处理图片,清晰度能非常明显提高……
附:老马的度盘
链接:百度网盘 请输入提取码
提取码:4hie
1 Like
登徒浪子
19
mdxexportor,这个可以解压mdx,mdd,mdxbuilder可以压缩txt和图片,前者是压缩成mdx,后者压缩成mdd,要不然体积非常大,影响使用
1 Like
登徒浪子
20
这个自便,分享出来就是供人使用和改造的,有更好的改造是值得鼓励的