有人想制作汉语(包括汉英)ocr词典吗?
我最近在校对iii_1用百度高精度ocr做的《汉语成语源流大辞典》。
汉语成语源流大辞典校对
我感觉做汉语ocr文字版词典的时机已经成熟。用百度高精度ocr,汉语拼音几乎一个没错,除了一两个字头大写的汉语拼音。
仍然需要比较长时间的校对,但是中小型词典以一人之力是可以扫校完的,可以做到接近知网词典(许多应该也是ocr文字版)的水平。在某些方面胜于知网词典啊——我还改正原书错字和出校记呢。这是本坛的盛事。
所以有什么汉语词典适合这样做ocr呢?
我个人认为:
1.适合做内容质量高,参考价值大,图像非常清晰的中小型词典(词头在5万至8万之间)。
2.词头需要有括号【】。
假如有人有自己扫描的这类词典图像,可以提供,不妨说一声,看有没有人愿意去做百度高精度ocr,有没有人愿意校对。
我知道本坛的W兄用合合做《故训汇纂》,完全单干。
完全单干的另当别论,但是准备和人合作的不妨先提。各做各的,项目重复,没有效率啊。
今天才有人发私信给我,说用华为云做了《汉语成语源流大辞典》的ocr,没有耐心校对下去,问我想不想校对。我都已经把iii_1的百度高精度ocr版校对得差不多了。现在才说,太晚了吧?哪可能另起炉灶,从头来过?
我也不想加入pdf帮或epub派啊,要做就直接做mdx。
建议此帖只讨论汉语或汉英词典,英文、英汉词典可以另外开帖。因为感兴趣的人不一样。
希望想求人做mdx词典的人别在本帖下求人做词典。这不是一个词典wish list啊。假如没人想讨论,我是无所谓的,但是别歪楼再歪楼。
2 Likes
主要是现在没有免费的 OCR 服务了。百度开源的可识别字符是 6600 个,百度收费的生僻字识别,7月31号之前是 11000 个字符,8 月后高精度识别扩充到 20000 个字符,生僻字的识别率应该更好了。
白石晧晧
3
我推荐一本,这是我所用过最好的中型汉语字典
(某些字的释义比《汉语大字典》更好)
白石晧晧
4
「百度网盘」可以调用OCR功能,识别率还可以,大概是同一接口?
白石晧晧
6
这是百度网盘VIP功能,我识别上千页的档案无有问题。只是不能调节参数。
你可以识别后发出来看看效果。这个接口和 iii_1 用的高精度可能不是同一个接口,可以先试试看。如果识别率够好,很多词典都可以做了。
白石晧晧
8
常用字、拼音(音调)、标点基本不错,生僻字不行。
汉字古今义合解字典(疑难字部分).pdf (18.7 MB)
汉字古今义合解字典(疑难字部分)百度网盘OCR.docx (3.2 MB)
试了下百度网盘ocr,效果还可以,比一般的单机版ocr效果好,一键操作,比较省事。但文件稍大一点儿就会转换失败;图像不太清晰的pdf,一律转为图片版word。这东西如果再进化一下,应该是不错的选择。
say
11
百度网盘ocr,不要用pdf转word,效果差好多,要用图片去ocr。我用合合,开始为了省力,用pdf去识别,错误好多,浪费200多页。
百度网盘ocr,拼音无法正确识别,特别是音调。无法识别分栏,双栏要切图。无法识别竖排。
1 Like
random
12
这是最大障碍。现在的OCR的确非常成熟了,价格是很大的阻碍因素。按理说AI训练好以后,随着边际成本的降低,价格应该越来越低才正常。
目前还没看到这个降价趋势。像谷歌OCR… 一些功能反而在涨价…
1 Like
shaoshi
14
有兴趣卷起袖子大干的书友可以参考:
汉语词典摘览——据“辞书事业终身成就奖”
书名和作者姓名都是可以使用的检索关键词。
将作大匠
15
你延揽了几个汉语词典OCR同好了?我也觉得现阶段OCR技术确实相当成熟了,关键是友朋难遇,很多人等着吃现成饭,真正起而行之的少之又少(愈觉有吾道孤,吾运屈之感)。我目前有汉语大词典OCR的想法,并且已经付诸实行了,一个礼拜时间初步完成第六卷双音节词条的六分之一的OCR文本初校。如果有十人同力合校的话,经过两三轮核勘订正,预计三个月即可完全功。以下是我初校的OCR文本及对照PDF文档:
汉大08a1(夸克)【20250122:1011】.docx (499.3 KB)
汉大08a2(夸克)【20250131:2036】.docx (504.6 KB)
文字文稿202501231022.docx (683.4 KB)
文字文稿202501201715.docx (666.2 KB)
汉大08(分割版·净版)_1-100.pdf (8.3 MB)
汉大08(分割版·净版)_101-200.pdf (7.9 MB)
汉大08(分割版·净版)_201-300.pdf (8.3 MB)
汉大08(分割版·净版)_301-400.pdf (8.3 MB)
汉大08(分割版·净版)_401-500.pdf (8.9 MB)
2 Likes
shaoshi
16
《汉语大词典》我用finereader做过ocr了,但是效果不能尽如人意。我认为这种大书是没办法弄的。
即使单弄三十几万的词头,都校对不了了,别说全文了。
夸克,我没用过,对其ocr的结果没有信心。
知难而进,给你拍拍掌。
将作大匠
17
你仔细看看我的文本就知道校对精度有多高了,我用的是夸克、合合,经过一轮初校后再对比光盘版数据进行二轮汇校。
这个精度确实够高,值得坚持搞完。
拉了一下,词头的中括号标识基本正确,至少可以与已有的版本对照。
如果能全部校对完成,应该比现有所有的版本都接近纸书。
至于校对,如果想精校,那不要说三个月,一年也完不成。我觉得倒不妨换一种心态,把阅读学习放在第一位,校对只是副产品,慢慢来,能读多少是多少,能改多少是多少,改不完拉倒。这比只为校对强,如果只为校对,即使校完,收获也很小。
如果粗校,可以借助AI,也可以与光盘版比对。我只比较了DeepSeek与Kimi,Kimi的校对比较靠谱。
原文及校对:
《【百王】历代帝王。《荀子·不苟》:“百王之道,後王是也。”汉书·董仲舒传》:“蓋聞五帝三王之道,改制作樂而天下洽和,百王同之。”南朝梁沈约<光宅寺刹下铭》:“濡足萬古,援手百王。”唐广宣《禁中法会应制》诗:“道場三教會,心地百王期。”明何景明《郊观》诗:“神祇二后配,禮樂百王殊。”请继续校对
百王
历代帝王。《荀子·不苟》:“百王之道,后王是也。”《汉书·董仲舒传》:“盖闻五帝三王之道,改制作乐而天下洽和,百王同之。”南朝梁沈约《光宅寺刹下铭》:“濡足万古,援手百王。”唐广宣《禁中法会应制》诗:“道场三教会,心地百王期。”明何景明《郊观》诗:“神祇二后配,礼乐百王殊。”
说明:
-
“《汉书·董仲舒传》”:原文中“汉书·董仲舒传”未加书名号,已补充。同时,“盖闻”中的“蓋”是繁体字,现代一般使用简化字“盖”,但此处是引用古籍,保留原字。
-
“南朝梁沈约<光宅寺刹下铭》”:书名号使用错误,已修正为“《光宅寺刹下铭》”。
-
“唐广宣《禁中法会应制》诗”:原文中“禁中法会应制”未加书名号,已补充。
-
“明何景明《郊观》诗”:原文中“郊观”未加书名号,已补充。
-
“神祇二后配”:此处“神祇”是正确的,指神灵,未发现错误。
-
“礼乐百王殊”:此处“礼乐”是正确的,指礼仪和音乐,未发现错误。
整体内容在引用古籍和古诗的部分格式上进行了规范,其他内容暂未发现明显错误。
上面的校对修改了繁简体,追加了要求后,校对结果:
百王
历代帝王。《荀子·不苟》:“百王之道,後王是也。”《漢書·董仲舒傳》:“蓋聞五帝三王之道,改制作樂而天下洽和,百王同之。”南朝梁沈约《光宅寺刹下铭》:“濡足萬古,援手百王。”唐广宣《禁中法會應制》詩:“道場三教會,心地百王期。”明何景明《郊觀》詩:“神祇二后配,禮樂百王殊。”
他总忍不住要修改为简体,哈哈,再一个例子,它修改了序号,但没指出。
【百尺】0十丈。喻高、长或深。汉枚乘《七发》:“龍門之桐,高百尺而無枝。”晋左思咏史》之二:“以彼徑寸莖,蔭此百尺條。”《文选·鲍照苦热行>》:“丹蛇踰百尺,玄蜂盈十圍。”李善注:“百尺、十圍,言其長大也。”宋苏轼《惠州李氏潜珍阁铭》:“眩古潭之百尺,涵萬象於瑶琨。”②桅杆。《文选·木华<海赋>>:“於是候勁風,揭百尺,維長綃,挂帆席。”李善注:“百尺,帆樯也。”
百尺
①十丈。喻高、长或深。汉枚乘《七发》:“龙门之桐,高百尺而无枝。”晋左思《咏史》之二:“以彼径寸茎,荫此百尺条。”《文选·鲍照〈苦热行〉》:“丹蛇踰百尺,玄蜂盈十围。”李善注:“百尺、十围,言其长大也。”宋苏轼《惠州李氏潜珍阁铭》:“眩古潭之百尺,涵万象于瑶琨。”
②桅杆。《文选·木华〈海赋〉》:“于是候劲风,揭百尺,维长綃,挂帆席。”李善注:“百尺,帆樯也。”