[自制pdf]日本语句型辞典

用ABBYY只识别了词条部分,比起直接转换得到的文件,这个更像一本词典。(虽然离mdx还是有差距不过也能将就用下了)。

搜索时可以借助【つもり】这样的【】标签快速锁定初始位置(只有其实也能确定),之后可以删掉【】,只用つもり在不同意项之间快速跳转。

另外受Zlibrary那上面的2本PDF的启发,也做了一个书签,顺便修改了一下页面标签,这样利用最后的50音顺索引 查到页码后可以直接输入跳到对应的页面。

但是由于按照个人输入查找到的习惯,部分词条的()以及【よう2】的下标数字做了处理,会和实际看到的略有冲突,但关键部分基本保持一致,所以不适合完全没有语法基础的初心者用。

最终的成品https://wwp.lanzouf.com/b011km18j密码:ar29

https://cloud.freemdict.com/index.php/s/r6NDaStc9AYD95C

如果想要修改的话,可以在下面的链接里找到ABBYY的项目文件,这样就不用从头开始造轮子。

链接:https://pan.baidu.com/s/1HHDypd3NDYI9yONNt58TNA
提取码:g9rl

最后,麻烦伸手党不要只哔哔“为什么不做mdx”这类没营养的废话。

8 个赞

你这个我做过。
后来我发现引得市上有这边书的索引,直接使用就好了。
https://www.mebag.com/index/

5 个赞

请问一下引得市上面只有索引,没有实际内容,对吗?

请问你怎么做到每页只识别词条部分的

1 个赞

在ABBYY的「OCR 编辑器」中手动划出识别区域实现的。具体方法参考下面文章的「 在 OCR 编辑器中打开」部分

1 个赞

近900页,你一页一页手动选区吗?

是的。我大概花1个月的课余时间,总共应该花了近50个小时(不吃不喝的话,两天也就搞完了2333

4 个赞

大佬,我来抓个虫

  1. 有些拗音的小写や行假名(如ゃゅょ)被识别成大写やゆよ了,可以通过搜索い段假名+や行假名的方式找到这些漏网之鱼,比如搜索じや、じよ等

  2. pdf的532页,也即书籍左上角标的518页,整页都被ocr识别了

最后十分感谢大佬的辛劳和付出,实在是受益匪浅

1 个赞

好嘞,有空修修(

2 个赞