是这么一回事,只是像这种更专业层面的少有人做罢了。
阿里、腾讯、百度等都有自己的 OCR 产品,但是它们针对的领域和需求不同。虽然我没用过阿里的,但我看它们都不出日常办公和商用的范围,至于更专业的文字处理(像古籍文字这类),我是不奢望的。像中华书局这种,有实际的专业需求,才会投入精力合作研发这样的 OCR 系统。
是这么一回事,只是像这种更专业层面的少有人做罢了。
阿里、腾讯、百度等都有自己的 OCR 产品,但是它们针对的领域和需求不同。虽然我没用过阿里的,但我看它们都不出日常办公和商用的范围,至于更专业的文字处理(像古籍文字这类),我是不奢望的。像中华书局这种,有实际的专业需求,才会投入精力合作研发这样的 OCR 系统。
古書字形,很多是沒有統一編碼的,要 OCR 就得培養出個超大的私有區字形庫。商業字型方面,方正中華字型的私有區是最大,這也只是公開的,內部用的一定更大。
是的,古联让方正定制的未定义汉字字符就有三万多 ,而且还会继续增加~
古联用的字型,有辦法抓下來嗎?我手上的中華平面15,版本號是 2.10
官網提供註冊下載,FZSONG_ZhongHuaSongPlane15
最新版為 2.12
。
中华书局宋体字库22012611.7z.001 (20 MB)
中华书局宋体字库22012611.7z.002 (19.7 MB)
古联甲骨文字库21102111.zip (3.0 MB)
中华书局梵文字库20062917.zip (2.8 MB)
謝謝!
以大字典字頭來說,中華新版只多了一個“䶷”字。
中華還是無法表現大字典的 “㮝”(U+3B9D)。該有的字形他沒有,反而重複了 㮝(U+2F8E7)字形;中易SimSun也是同樣問題。這問題一直沒改,害得我得用特製字型來補充。
有点可惜,目前古联似乎并未对汉语大字典进行数字化,不然这些字体问题也能得到解决 不过呢,汉语大词典和汉语方言大词典都完成了,它估计也不远了呢
提個小建議:CSS 中不必為作者和書名標籤(u和i)设置 display:inline-block,否則會導致書名或作者名在在所在行顯示空間不够的情况下強行整體換行(行尾留下許多空白區域⋯),影響文本的連貫性。下圖是 u 和 i 標籤去除 display:inline-block 後書名的自然換行(只對溢出的文本進行換行顯示)。
更新了。after this, there won’t be frequent updates; gonna work on other stuff.
我想做的幾乎都做了,例如增補甲骨文:占、行、後、宫、家、寅、宿、𡿧、旡、杶、柙、樂、散、日、曰、气、父、斝、雲、革、高、龍、龠
補了殘缺釋義,包括:畛11、鉦2、升7、匣4、佩2、俎2、侯2、尊2、爵2。
剩下的350 “” 只回應反饋或順手而改。
看来20220621版或许是一个里程碑式版本,M大要转移关注点了
看来要整汉语大词典了
那也要等23年新版出来才整
【冑】【脁】【𠘡】【雈】
标签错误造成排版问题
【团】【䂬】【剡】【夢】等
标签<i>
位置错误,虽然在默认版式下没有引发显见问题
thanks for the tag audit. updated.
@fancy
it was designed that way for vertical spacing, as ‘inline‘ text cannot have bottom margins. but especially long book titles present line-break problems. I solved the spacing issue with line-height instead; it should work better now.
字出現在數據,但本身不是字頭,這類案子我翻過一遍,大多是錯字,已經糾正了。
那個 錯字是個字頭,所以不好查出來。更新了。
这个其实是值得讨论的。
根据《简化字源》,“魚”简化为“鱼”最早见于汉简,并指出清代刻本已见楷化的印刷体“鱼”。虽未直接提到“撸”字,但为保险起见应该查找《红楼梦》原文。
《红楼梦》存在脂本和程本两大系统。前者多数不过八十回(有《红楼》后四十回为续作的说法),属于手抄本系统;后者一百二十回,属于活字印刷本系统。
由于引文为“八十三回”,所以先查了程本系统最早的程甲本和程乙本,发现二者“擼”字皆作“摟”!
所以如果存在这个引文,一定出现于少见的超过八十回的手抄本。
这样的版本我能找到的有两种——蒙府本和杨藏本。
查找后发现前者与程本同,但简化作“搂”;
后者结果如下:
虽然不太清晰,但应该就是简化后的“撸”字!当然如果能找到更清楚一点的图像就好了。
改了下图标。补点了 @Mastameta 网页版PS改不了字重
6-23 版:
新造的類推簡化字不該出現在古代引證,用這個原則查出兩個錯字:
【𢂯】𫷅→𢂯
【符2】𦈡→繻
也是這個念頭而對 “撸” 有疑問。 拋磚引玉,notwind 證明是古字形呵呵。
【玦】字條漏了釋義2,補了。又順手補了些字條。