百科图解词典(升级版 含全部音标) 自己扫描 校对 图片词典

英汉图解百科词典,有个升级版,网上无法找到pdf,这本所有词汇带音标,很喜欢。自己买书扫描了下。做成图片词典(目前只中文索引)

但目前遇到的问题还是,automdxbuilder能利用的索引文件index.txt 对于一个词头对应多一个页面的情况无法识别。
比如
无法索引的示例

请教各位,能否把它处理成如下的形式。之前手动处理过一本小词典,太累了,这里有一千多个词头需要处理。请求帮助,谢谢!
image

图片词典图示:



链接:https://pan.baidu.com/s/1R029EeatiihUwgdhLQ-GlA?pwd=pbap
提取码:pbap


在楼下amob的热心帮助下,中文索引文件处理好,mdx文件重新生成,下面是更新的版本。还另附了扫描的整书PDF。

链接:https://pan.baidu.com/s/1ke6E72X_Rqy5vIVp42Y9CA?pwd=9eft
提取码:9eft

17 个赞

以上链接里有图片词典文件,还有index.txt,希望能处理的朋友帮助处理下这个词头索引。谢谢!

巧了我之前写了个类似的python,打包成了exe,以后你需要就放进去运行。

index.txt (150.2 KB)

1 个赞

具体是哪个版本?pdawiki之前发布过2016版

image

您好!
版本信息如下,不是“图解大词典”,那个Klwo制作的图解“大”词典,非常精美。
我本来看不上这本,收词少些,也有读秀上的旧版本流出。但是这个升级版,包含所有的词的音标,网络上未见,所以自己扫描了这个。

1 个赞

感谢!太感谢!自己正愁怎么处理~

不错!

做个对比供其他人参考:以下是“大词典”(有解释),一楼的是“词典”(有音标)

重制一下,可以自由选择分隔符。源码和exe都放这了,很简单的小程序而已,大佬就不用看了。估计就用automdxbuilder的用得到,仅供参考哈。
只适用于index.txt的(索引词)\t(页码)(分隔符)(页码)(分隔符)(页码)。。。
或者也可以用于syns.txt的(索引1)\t(索引2)(分隔符)(索引3)(分隔符)(索引4)。。。

索引分割器.zip (9.5 MB)

期待楼主用新索引做的mdx。

1 个赞

帖子里已经更新了链接~谢啦! :grinning: :+1:


附封面
翻了翻pdf,这种书还是用600dpi扫描会清晰得多。高清图片索引ocr效果也会比较好,减少校对时间。

1 个赞

请问为什么输入“reflecting telescope”,查不到,输入中文“反射望远镜”方可以查到?

楼主说了,目前只有中文索引的

1 个赞

嗯嗯,自己的自动进纸扫描仪,600dpi扫描的比较慢,但是用于OCR的几十页索引页确实是用600dpi扫描的。

英文索引还在做,有了amob的工具方便很多,我做好了再在上面更新下。

1 个赞