三民大辭典文字版的可行性

三民大辭典的文字化,不知道有沒有高人在做。茲發幾張樣張,冀同道共襄此舉。










4 个赞

蚍蜉撼樹,愚公移山。
先把詞條索引做完吧
(現有的錯漏百出):joy:

個人力量黨然微弱,不知道論壇裏有沒有同好感興趣,一起完成

粗看了下,識別率還不錯。 值得讚歎!這是很有意義的事,可以堅持做完。
不知出版社什麼時候放出電子版。如果不出,自己識別也是沒有辦法的事情。OCR 也不必太過較真,達到基本能用即可,能提高效率,快速做出來。 自己也不用太費力氣。
算是一個過渡版本。可以參照圖片版看。
100%的準確率 那得看出版社的原始數據了。

2 个赞

道阻且長,行則將至。
:wave: :wave:

W2K老兄已翻出二百余条错漏,确实是“错漏百出” :laughing:

楼主用的什么软件,识别率确实挺高

其心可嘉,其事甚难。词典如果不准确,就很难使用了,查了也无法确定是否准确。再说这部词典内容未见到有什么好,辞源+汉语大词典,应该超过它。

加上图文综合版,很好啊。

楼主有没有完成OCR?

这本有高清PDF吗?后面可以用有道OCR试试

已完成ocr。脱漏、错误处挺多,正在逐字核对原文,仅完成100万字的校对,包括词头转换成汉语拼音。业余时间校对,还有1400多万字未完成,尚需时日。急需高手帮助,假以人工智能,多些人手,当会尽快完工。

1 个赞

可以拉一个校对群,先用几个OCR识图 交叉对比,筛选出有问题的部分,再人工核对。
AI 应该有辅助校对功能,多加利用,尽量降低人力工作的分量。群策群力。
我可以赞助OCR 或AI 费用。

尝试了两页,感觉字体原因,识别结果不是很好,免费的合合在线文本识别服务:

这个工程实在太大,先测试一些智能校对工具看能不能大幅减少工作量,纯人工校对恐怕不可能完成。

本人qq,3535565204,歡迎有志於三民大辭典的校對者加入。已经完成ocr,标注汉语拼音可以交给ai,也可以通过excel批量进行,已验证通过。主要时间花费还是文字校对,包括转换为篆文,以及公式、拉丁字母、图片插入,标注序号,格式分行等。

ocr效果:
【值域】

(rangeoffunction)在函數關係中,由定義域中所有元素所產生的函數值之集合,稱為值域,也稱為函數的像。給定函數f:A一B,值域圖集合f(A)={giy=f(r),xeA}稱為函數「的值域。例如:給定函數f的對應關係如上圖,f的值域為{a,b,cl。

【值宿】

夜間輸值。〈長生殿•刺逆〉「呵呀,不好了!外廂值宿軍士快來!」

【值遇】

遭週。〈爾雅•釋言•偶遇也•注〉「偶爾相值遇。」〈韓愈•秋懷詩〉「運窮兩值週,婉變死相保。」值同值。休力?(lan)愚笨無能的樣子。〈喬吉•山坡羊曲〉「妝呆妝休,妝聲妝���,人生一世剛圖甚?」

【休儓】

愚笨無能的樣子。〈方言•三〉「南‘楚’凡罵庸賤謂之田儃。」注:「休㑽,駑鈍兒。」倈同徠。

倯么×���(song)

1嬾。〈方言•三〉「庸謂之倯,轉語也。」注:「今‘隴’右人名孄為做。」

厲。〈廣雅•釋詀〉「倯,罵也。」凍日勿x2(dong)

1姓。〈玉篇〉「凍,姓。」

參見儱使條。日勿×2(dong)參見悸凍條。倳P(z)置立,插人。同剚。〈玉篇〉「傅,置也。」〈漢書•蒯通傅•慈父孝子所以不敢事刃於公之腹者畏秦法也•注〉「‘李奇’曰:「東方人以物臿地中為事。」‘師古’曰:「事,⋯⋯⋯字本作傅。』」倆日

大"(liang)參見伎倆條。日Y(i)兩個。如:他們倆。俩同夙。〈玉篇〉「俩,古文夙。」倷���历(ndi)‘吳’語稱你為倷。一作耐。倴日hh(ben)

1同奔。〈劉知遠諸宮調•知遠別三娘太原投事〉「陌然地見他家傑跳過頹垣,怎恁地徤捷欲倴草房去。」

人名用字。〈字巢補〉「倴,‘那顏倴盞’,‘元’將名。」

hh(ben)

1通笨。〈李開先•寶劍記〉「這灶下倴漢生活,何難之有?」〈馮惟敏•一枝花〉「站的站天生的心倴,看的看日射得睛昏。」

地名。‘倴城’,在“河北省’‘灤南人部縣’。

依靠,仗恃。〈說文〉「倚,依也。」〈史記•淮陰侯傳〉「百姓罷極怨望,容容無所倚。」樂府詩集•辛延年•羽林郎〉「昔有‘霍’家姝,姓‘馮’名‘子都’。依倚將軍勢,調笑酒家胡。」

配合,依照。〈史記•張釋之馮唐傳〉「使“慎夫人’鼓瑟,上自倚瑟而歌。」

偏頗。〈禮記•中庸〉「中立而不倚。」

④姓。‘楚’左史‘倚相’之後。見“元和姓纂•六”。目4-(】

異。通畸。參見倚人條。

隻。〈穀梁傳•僖三三年〉「匹馬倚輸無反者。」

【倚人】

身體外貌不正常的人。即畸人。〈莊子•天下〉「南方有倚人焉,日‘黃線’。」釋文:「本或作畸,同紀宜反。‘李’云:「異也。』」

【倚伏】

指福禍互相依存,有連帶關係。〈老子•五八〉「禍兮福所倚,福兮禍所伏。」〈漢書•敘傳上〉「畔回宂其若茲兮,北叟頗識其倚伏。」

【倚杖】

依恃,依賴。也作倚仗。〈文選•干寶•晉紀總論〉「奇倚杖虛曠,依阿無心者,皆名重海內。」〈世說新語•品藻〉「論王霸之餘策,覺倚仗之要害,吾似有一日之長。」

拄杖。〈鮑照•代東武吟〉「腰鐮刈葵藋,倚杖牧雞豚。」

【倚邪】

歪邪不正。〈管子•版法〉「植固不動,倚邪乃恐。」注:「言執法者必當深植而固守,則不可動移:若乃頓倚而邪,則法亂而身危,故可恐也。」

【倚佯】

直條紋的粗竹蓆。也作倚陽。〈方言•五〉「筕售,自‘關’而東,‘周洛’、‘楚’、‘魏’之間,謂之倚佯。」注:「似籧篨,直文而粗。」

【倚委】

依風搖擺的樣子。倚,一本作猗。〈文選•郭璞•江賦〉「隨風猗委,與波潭沲。」

https://wpsplus.com/join/g9xgcg5?invtoken=emhhbmd0aW5nYW4=
邀请你加入,共同编辑

个人体会,用chatgpt o1校对需要强调不改原文,改错字,标点,效果较好。claude总是爱改原文,增删一些内容。

不知AI朗读效果这种带拼音和符号如何,如果可以的话,用微软自带TTS用来听着校对比较好

2 个赞