除了 #135 樓的例子,這些字條也有:
𪆉、𨖰、饙、𰁒、𠏛、𠑺、𠡷、坓、垔、夌、𢈮、㯱、抌、疊、譭、𩀢、𨧚、𪐭
像 𪆉 字條,字典只收了訛字呵呵。
如果比對字頭與釋文,應當另有幾十個出現在引證但沒字條的字。也許有一百多案子,具體數量我不記得。
除了 #135 樓的例子,這些字條也有:
𪆉、𨖰、饙、𰁒、𠏛、𠑺、𠡷、坓、垔、夌、𢈮、㯱、抌、疊、譭、𩀢、𨧚、𪐭
像 𪆉 字條,字典只收了訛字呵呵。
如果比對字頭與釋文,應當另有幾十個出現在引證但沒字條的字。也許有一百多案子,具體數量我不記得。
据说优秀的辞书,字头跟释义用字是自成闭环的,释义中用到的每一字在本书里都能查到
300多人合作的。某人用了什么字形,其他人可能都未必知道。
新版應當修了。(小問題,需要那麼大的截圖嗎?好佔地兒哈哈)
图大,醒目
that page works normally for me. 注意:查文字版缺的字頭,會進入(或保持在)圖像板界面。
反饋一些問題:
妃:原文「通“配”」,此文字版少一「通」字。
谢谢反饋。修了,更新了。
問題主要來自紙本標點不規範,例如引文結尾顛倒作 …”。
,不作 …。”
。
或數據標籤不正常。例如引號在專名裡:
度:義項(三)保持原樣。
前面 “宅西曰昧谷” 本身不是引證,因為沒引上字頭 “度”。接著是字典編輯者的歸納,不是完整引文一段。具體說,結尾不是 …。”
。
歸納而不直接列引文,都不標顏色。
查询“直”字时,第3义项的例句:“不能裂肝脑”中的“脑”字的颜色与例句不同
私有區字標紅色。有點太顯眼,也許當限制於字頭。
辛苦了!
這一問題,僅見於通假,它處沒有這種情況。這應當是標點符號的使用問題,而不是區分引證與編者語的體例問題。通假的義項,其引證無非包含了通假字與本字,以證明兩者通假。只不過有時引証的材料,本字或通假字的位置或在引文中,或在後面注或解釋中,位置不定。如此一來,字頭(通假字、本子皆有可能)要麼出現在引文,要麼出現在注中,這是自然不過。字頭出現在引文,引文的語意算是完整的(從整個語境看),所以使用句號;字頭不在引文,那自然整句語意不完全,所以不當用句號,需配合後面解釋性的內容,才成一連貫完整的語意段落,故句號標在了整個引證的最後(引證不只是引文,後面的注,一般都是引證不可或缺的一部分,除非加了按語,或有明顯的編者語氣,可另作編者語看待。)這裏舉個有意思的例子,它是出現在引文中的例子,它很能說明是標點符號的使用問題。「據」義項第 12-1,引用了王氏《經義述聞》的書證材料。在《經義述聞》的引文中,標點符號的使用也是如此。
上述「琘」的格式,即 書名:“X”,同“Y”。
的省略歸納,出現 2,200多次,不算罕見。
字典標點不規格、不統一,這問題已經手工糾正了幾百處。這個大幅度字典,若要另外調理若干案子當作例外,白費功夫,也沒多少意義。從操作角度來說,滿足格式條件(#132樓)就標,不符合就不標,很乾脆。我注重的是標籤有規律,是十分 predictable。
但有時標點本身有問題(不符合字典自己定的格式),像 將 字條在新版已經修改了,問題在數據,不在所定的標籤條件。另外,也有特殊的格式,例如引文後的括號,算是條件中的一個附註吧。
這類問題,本來原辭書合併在一起,樣式也統一無別,魚龍混雜的,一眼看過去也似乎沒啥問題。然而一旦稍加區分開來,這些問題之“魚”都跳顯出来了
確實,我本嘗試用正則處理一些內容問題,尤其是引證部分,但是原辭書自身以及數據的問題加起來,讓一切變得十分棘手~(我想您的處理方式和原則大致是對的。
這種大型辭書,向來不用文字版,只用圖像版,省心很多。只是 M 兄的製作一向嚴謹精良,不得不用
人家不見得同意我的做法,但我在這問題上是有用心,不是草率弄出來的。引證標籤,開始鑽這個洞,就會注意到像你說的“魚”跳出來,甚至魚龍百變,不少怪事出現哈哈。
通過這過程發現字典的標點錯失是個好事。
原來有十幾條釋義殘缺,我試探了 OCR 文本的效果。(包括:畛11、鉦2、升7、匣4、佩2、俎2、侯2、尊2、爵2)
我之前抱著希望可以利用 OCR 文本來批量增補字條,現在結論是不可能的。每條要花太多少功夫糾正、校對,和調理標籤。雖然效果比我想象的好,錯誤還是太多了,甚至認不出李善、高誘、鄭玄等等,雖然都不是僻字。
字形有問題的字頭,我後來決定提供補充,用括號。
如果字形不但錯,又不符合 Unicode 標準,就一概改成正字。
𤰈
目前针对古籍的 OCR,也许只有古联(中华书局)开发设计的最好,它甚至连稿本和手抄本都能高准确率识别,应该也能识别“正常”文本吧,我没试过。它还能提供原文与识别结果的对照,以及自动分析可疑结果并高亮显示,对校对修改十分的友好。它不过目前只是开放个人测试阶段,还不能批量识别处理。具体可见:
重磅发布丨古联OCR系统上线!
that looks cool.
感覺漢字 OCR 是個 self learning AI + big data 能解決的問題…不知道像阿里巴巴做到什麼程度了。
很多刻本都有校訂出來的 “答案”, AI 可以按照答案訓練、自學,不是嗎?