现代汉语疑难词词典
【简要总结】书籍中收录了1000多条词汇,并附有笔画检索表,按照普通的词典排列顺序进行排列,帮助阅读者掌握现代汉语中的疑难词汇。
分享一下解析文件,供大佬们做词典。
现代汉语疑难词词典(mineru解析文件,含原pdf、html、doc、md文本).zip (13.1 MB)
现代汉语疑难词词典
【简要总结】书籍中收录了1000多条词汇,并附有笔画检索表,按照普通的词典排列顺序进行排列,帮助阅读者掌握现代汉语中的疑难词汇。
分享一下解析文件,供大佬们做词典。
现代汉语疑难词词典(mineru解析文件,含原pdf、html、doc、md文本).zip (13.1 MB)
MinerU 用的识别引擎是 PaddleOCR,中文识别错误率较高,得到的文本自己随便翻翻还行,就做词典而言,是没法用的,像这里的文字,拼音基本都是错的,没有音调,隐藏的其他讹误也不少。
简易的文本,目前至少要用到合合、百度高精度、夸克这种ocr工具才会相对可靠,稍微复杂一些,(顶级)双引擎三引擎互校,更复杂一些(很多生僻字,若干特殊符号,多语种,复杂版式),目前还没OCR引擎可以有效识别处理。