今天开工把《汉语拼音词汇：专名部分（草案）》这本书做成词典

wwr21 · 2023 年9 月 19 日 03:22

这本书字不多，有三万多条，最头疼的就是这拼音。在坛子里也看了好多天了，终于学会了使用AutoMdxBuilder。我觉得这本书比较适合做成图片版的，做好了，以后有兴趣再改文字版吧。开始做索引，慢慢来吧，毕竟得一字一字校对。

jcz777 · 2023 年9 月 19 日 04:31

finereader 16识别率还不错

wwr21 · 2023 年9 月 19 日 05:14

我是一条一条OCR的，边识边校。

bianqiu2012 · 2023 年9 月 19 日 08:27

你好，请问可以分享一份图片里识别语言中的“拼音”文件吗，谢谢。

jcz777 · 2023 年9 月 19 日 11:50

这个可以自定义，无法单独提供。

自定义拼音识别语言，提高finereader拼音识别率
你可以这么做
1，

001
2，
002
3，

字母内容填这些
-ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzÀÁÈÉÒÓàáèéìíòóùúüĀāĒēĚěīńňŌōūǍǎǐǑǒǔǖǘǚǜǹḿếề’

导入拼音词典
拼音导入.txt (76.9 KB)
（如果修改此文件，注意保存编码为 utf-16le有签名）

4，
004

5，对页面进行识别。

这个方法能大大提高finereader的拼音识别率，减少误识。
但依然无法完美识别，剩下的就是得靠眼睛了。

bianqiu2012 · 2023 年9 月 19 日 12:17

这么详细的教程，非常感谢！

Su6i · 2023 年9 月 19 日 12:53

大工程感谢您的制作

zambast · 2023 年9 月 19 日 13:01

拼音这个东西现有软件（比如Word？）应该能标注吧，是不是可以将软件标注的结果与OCR结果进行比对，然后人工校对那些不一致的。

wwr21 · 2023 年9 月 19 日 13:39

今天开工还算顺利，把AB字头的索引录完了。

seasonsfly · 2023 年10 月 3 日 09:25

word拼音标注一次有字数限制吧。带声调的可用的词库确实也不多。一般都是没有带声调的。

wwr21 · 2023 年10 月 3 日 10:24

今天词头已录入完毕。目前已校对到Y打头的词条。开工后不久我就发现该书词条在《辞海》第7版中均可以查到，且都有读音。也许此书是当初为无读音的《辞海》第6版补充的读音吧，一直当工具书在用，就算练个手吧。顺利的话图像版过两天就可以完工了。

wwr21 · 2023 年10 月 4 日 15:45

今天终于完工了，试了一下AutoMdxBuilder，版面不太满意，最后还是费了点劲选了vim的MdxSourceBuilder，对于制作图像版已经不错了。这是我的第一个词典，里面难免有错，如发现请大家留言，下次再订正。里面有些字打不出来的，可能就用X代替了，以后再想办法完善吧。
图片V版.part1.rar (20 MB)
图片V版.part2.rar (20 MB)
图片V版.part3.rar (20 MB)
图片V版.part4.rar (20 MB)
图片V版.part5.rar (20 MB)
图片V版.part6.rar (9.0 MB)

wwr21 · 2023 年10 月 7 日 03:18

下面加着重号的文字在识别的时候90%以上都是错的，这个有没有什么办法解决？