【9月18日更新】王力古汉语字典文字版

排版有问题,应该是一上来处理的思路稍有问题,应该先分大块,再分小块。
我观察一般第一个p块为注音块,第二个p块为解释块,其它的备考块、辨块、按块都好区分。
如果有<p>\d+\.的,与上面一样,做特殊处理。
然后再把解释块分为释义块和书证块,这样就不会弄串。

我建议的出发点是省力气哈

现在这样就好了~ 保留个差不多原貌的以防万一即可,不必太纠结

按 Unicode 定義和字碼排次:
㬻 3B3B 从肉
䐠 4420 从月

王力字典,兩個字都收。應該按照王力所歸的部首來選字。
在中華書局字型,兩個字長得一樣;細明、全宋體兩個字型分辨月、肉偏旁。

朐-胊、㫚-㫚 也是一樣的道理。
————————————
這個數據,我會做個mdx自己用,別人不發,我就發,不爭先後。我已經完成了特製字型來配合王力用的字體,把中華書局私有區的glyph掛在標準碼了(這些跟中華平面0的字形不同,因為新舊字體的區分)。

4 个赞

汉字博大精深,兄台学富五车,受教了!
朐-胊,后一个字王力的词典以及《汉语大字典》都查不到,似乎是混在一起了。
㫚-㫚,查编码似乎是一个字。

事有例外,目前发现四处。三处是因为按语放在了注音之后,一处是解释块没有加p签,和注音混在一起。

谢谢。请问不分割的话,android无法加载吗?

我是如此。依原样打包为mdd,css增改font-face即可

1 个赞

“齐”字的原标签和标号顺序也有问题

50多次,href=“entry://…”> 之間有 XML 編碼和 “span” 標籤。

三十多次:

span class=" tiaomu=“”>
span class=" tongyuan=“”>
span class=">【辨】

三十這類的(“嵷”字條):image

有的句子是重複的,像“渚”字條:
image
紙書:
image

我只點出些編輯者要注意的。其他就不講了。

1 个赞
<div id="FCdiv2047983" key="2047983">       <p></p>       <p> 一悔收字與立條 </p>       <p> 1.本字典參照<span class="shuming">辭源</span>收古籍中通用漢字一萬二千五百餘個。僻字一般不收;現代新産生的字如氫、氧、碳、腺等不收。 </p>       <p> 2.按單字立條。有的字條下酌收複字條,以聯緜字爲主,如嚅唲等。也收少量的不能拆開來講的雙音詞,如姎徒等。複字條以〔〕表示。 </p>       <p> 3.字形。字頭涉及新舊字形問題的,分三種情况處理:«1»新舊字形的形體無大差别,筆畫也相同,用新字形,如“雪”(不作“雪”)、角(不作角)。«2»新舊字形的形體無大差别,但筆畫不同,如果<span class="shuming">辭源</span>採用的是舊字形,本字典也用舊字形。如“喏”(九畫)、滑(十畫)。«3»新舊字形的形體差别較大,如為/爲,妍/姸,温/溫等,則一般立兩個字頭。有的字形屬隸定與隸變的不同,如帬/雪,耼/聃,叜/叟等,<span class="shuming">辭源</span>有的只收隸變,如雪,叟;有的既收隸變又收隸定,如搜/<span>哢</span>,<span><img width="" height="" src="http://refbook.ancientbooks.cn/dictionary/u/cms/www/202009/22144005q4se.png"></span>/<span><img width="" height="" src="http://refbook.ancientbooks.cn/dictionary/u/cms/www/202009/221441174c0i.png"></span>,聃/耼等。本字典從<span class="shuming">辭源</span>,不作改變。 </p>       <p> 4.字頭按<span class="shuming">辭源</span>的214個部首排列,同部首的,以筆畫多少爲序。部首前大都有“部首總論”。 </p>       <p> 二悔注音 </p>       <p> 5.注音分三部分:«1»現代音,一般根據<span class="shuming">廣韻</span>音系的演變規律推定,並參照<span class="shuming">現代漢語詞典</span>,用漢語拼音注音。僻字酌注直音。«2»中古音,注出反切以及聲調、韻目、聲母。«3»上古音,只注出韻部。例如: </p>       <p> 一yī悔於悉切,入,質韻,影。質部。 </p>       <p> 怩ní悔女夷切,音尼,平,脂韻,娘。脂部。 </p>       <p> 6.今音僅一讀,<span class="shuming">廣韻</span>有兩個以上反切,又不辨義,一般只取其相應的某一切語,例如“芒”,<span class="shuming">廣韻</span>有莫郎切與武方切,今讀máng,本字典取莫郎切,不用武方切。 </p>       <p> 7.今音僅一讀,古反切不同,字義有别,則分别注出。例如: </p>       <p> 夏1.xià悔胡雅切,上,馬韻,匣。魚部。 </p>       <p> ≮一≯古代<span class="zhuanming">漢</span>族人自稱爲“夏”。≮二≯大。≮三≯朝代名。≮四≯國號。≮五≯五色。 </p>       <p> 2.xià悔胡駕切,去,禡韻,匣。魚部。 </p>       <p> ≮六≯四季的第二季。 </p>       <p> 8.今音與<span class="shuming">廣韻</span>、<span class="shuming">集韻</span>反切不合的,視情况加注“今讀如某”。例如“孌”luán力兖切,上,獮韻,來。元部。今讀如鸞。“況”kuàng許訪切,去,漾韻,曉。今讀如曠。陽部。 </p>       <p> 9.關於舊讀。舊讀指舊有的讀音,一般符合反切演變規律,有歷史根據,但與現代普通話的實際讀音不合,用括號標注在今讀之後。例如“危”wēi(舊讀wéi),魚爲切;“俱”jù(舊讀jū),舉朱切。又本有兩音兩義,今音合流,其中一音爲舊讀。例如“三”1.sān蘇甘切。2.sān(舊讀sàn),蘇暫切。 </p>       <p> 舊讀一般依據<span class="shuming">增注中華新韻</span>(中國大辭典編纂處編,商務印書館)。 </p>       <p> 10.有的字有文白異讀,本字典一般只注文讀音,不注白讀音。如剥,注bō,不注bāo;削,注xuē,不注xiāo;血,注xuè,不注xiě。也有採用白讀的,如北,注běi。 </p>       <p> 11.反切以<span class="shuming">廣韻</span>爲準,<span class="shuming">廣韻</span>没有的字,用<span class="shuming">集韻</span>的反切。例如:“宎”yǎ<span class="song">o</span><span class="shuming">集韻</span>伊鳥切,音杳,上,篠韻,影。宵部。 </p>       <p> <span class="shuming">廣韻</span>反切不合今音,在其後加注<span class="shuming">集韻</span>的反切。一般屬<span class="shuming">廣韻</span>唇音、舌音的類隔切,補出<span class="shuming">集韻</span>的音和切。例如: </p>       <p> 丕pī悔敷悲切,<span class="shuming">集韻</span>攀悲切,平,脂韻,幫。 </p>       <p> 媺měi悔無鄙切,<span class="shuming">集韻</span>母鄙切,音美,上,旨韻,明。 </p>       <p> 樁zhuāng悔都江切,<span class="shuming">集韻</span>株江切,平,江韻,知。 </p>       <p> 12.中古音聲母採36字母,字母中正齒音分兩組:照二穿二牀二審二;照三穿三牀三審三。不作莊初崇生;章昌船(神)書。禪、日二母都是三等字,逕作禪、日,不作禪三日三。喻母分三、四等,寫作喻三喻四。喻三不歸匣。 </p>       <p> 13.上古韻部爲王力的三十部。 </p>       <p> 14.<span class="shuming">廣韻</span><span class="shuming">集韻</span>未收的字,多屬後起字或晚起字。爲表明今讀的來源,儘可能從<span class="shuming">龍龕手鑑(鏡)</span>、<span class="shuming">五音集韻</span>、<span class="shuming">古今韻會舉要</span>(簡稱<span class="shuming">韻會</span>)、<span class="shuming">洪武正韻</span>、<span class="shuming">字彙</span>、<span class="shuming">正字通</span>、<span class="shuming">音韻闡微</span>等韻書、字書中找適當的反切資料,不標調、韻、聲,或僅取直音資料。如: </p>       <p> 丢diū悔<span class="shuming">篇海</span>丁羞切。悔奶nǎi悔<span class="shuming">正字通</span>音乃。 </p>       <p> 韻書、字書中找不到反切的,必要時在拼音後加一直音。例如“嫖”,“2.piáo,音瓢。”“嫚”,“2.yuān音蜎。元部。” </p>       <p> 15.通假字的注音。分爲兩類。一類是專爲通假字設立音項。如:“信”通“伸”。 </p>       <p> 信1.xìn悔息晋切。2.shēn悔<span class="shuming">集韻</span>升人切,平,真韻,審三。真部。≮四≯通“伸”。 </p>       <p> 另一類是在義項中注明通假。如“僞”通“爲”。 </p>       <p> 僞wěi悔危睡切(舊讀wèi),去,寘韻,疑。歌部。≮一≯欺詐。≮二≯通“爲”。人爲的。 </p>       <p> 三悔釋義 </p>       <p> 16.字義分析。注重字義的概括性。按意義的不同分立義項。有本義、引申義、假借義。近引申義合併,遠引申義另立,假借義也另立。義項用數碼≮一≯≮二≯≮三≯等表示。 </p>       <p> 在同一義項中,有引申義關係的意義,分别用“引申”、“比喻”、“又”等給予説明。例如: </p>       <p> 土:≮一≯土壤,泥土。……引申爲土地,田地。……又爲國土,領土。……又爲鄉土。≮二≯社神,土地之神。≮三≯量度,測量。 </p>       <p> 複字詞如果要分項表示不同的意義,則用阿拉伯數碼«1»«2»«3»等表示。如:〔委蛇〕叠韻聯緜字。«1»莊重而又從容自得的樣子。«2»綿延曲折的樣子。«3»蛇名。〔姁姁〕«1»怡然自得的樣子。«2»和好貌。 </p>       <p> 17.對字形的説明。牽涉到所有義項的,放在第一義項的序號之前。如: </p>       <p> 丐悔本作“匃”、“匄”。≮一≯乞,求。≮二≯給予,施給。 </p>       <p> 凱悔字亦作“愷”。≮一≯和樂。≮二≯戰勝獻俘時所奏的樂。 </p>       <p> 如果是對其中一個或幾個義項的説明,則放在該義項下。如: </p>       <p> 剛悔≮一≯堅硬,與“柔”相對。≮二≯名詞,剛鐵(後起義)。這個意義後來寫作“鋼”。≮三≯公牛。字本作“犅”。 </p>       <p> 18.義項排列的順序。大致是: </p>       <p> 本義在前,引申義在後。如:好悔≮一≯貌美。≮二≯美。 </p>       <p> 通用義在前,非通用義在後。如:女悔≮一≯女性。≮二≯女兒。≮三≯星宿名。 </p>       <p> 實詞義在前,虚詞義在後。如:孰悔≮一≯煮熟。≮二≯疑問代詞。 </p>       <p> 古義在前,後起義在後。如:捐悔≮一≯捨棄。≮二≯除去。≮三≯捐助,獻納。≮四≯賦税(晚起義)。 </p>       <p> 如果是一個多音字,不同音項下的義項序號順延。如: </p>       <p> 告1.gào悔古到切,去,号韻,見。覺部。 </p>       <p> ≮一≯告訴。上告訴下,下告訴上,都叫告。 </p>       <p> 2.gù悔古沃切,入,沃韻,見。覺部。 </p>       <p> ≮二≯告訴,請求。在某些地方讀入聲。 </p>       <p> 3.kù悔<span class="shuming">集韻</span>枯沃切,音酷,入,沃韻,溪。 </p>       <p> ≮三≯官吏休假。 </p>       <p> 19.同與通。“同”一般用於異體字。“同”後面的是習用字。如“<span>攈</span>,同‘野’”。讀者通常是通過習用字來認識非習用字的,因此“同×”也兼有釋義的作用。如“姉,同‘姊’。<span class="shuming">戰國策</span><span class="shuming">韓策</span>二:‘<span class="zhuanming">(聶)政</span>姉聞之。’”有時注“同×”後仍須申説,如“匡悔≮一≯同‘筐’。飯器。”“妬悔同‘妒’。妒忌。” </p>       <p> “通”用於通假字。 </p>       <p> 20.後起義與晚起義。<span class="zhuanming">魏</span><span class="zhuanming">晋</span>至<span class="zhuanming">唐</span><span class="zhuanming">宋</span>這一段産生的詞義爲後起義,<span class="zhuanming">元</span><span class="zhuanming">明</span>以後産生的詞義爲晚起義。注明詞義的時代性是有選擇的,視對詞義注釋有無必要而定。例如“好”:≮四≯用作補語,表示事情的完畢(後起義)。<span class="zhuanming">唐</span><span class="zhuanming">韓偓</span><span class="shuming">無題</span>詩:“粧好方長嘆,歡餘卻淺嚬。”≮五≯副詞。很(晚起義)。<span class="shuming">紅樓夢</span>四二回:“説的好可憐見兒的。” </p>       <p> 詞義發展是漸變的。所謂後起義、晚起義是指新産生的某詞義在這個時期已有較普遍的應用,而不一定指某詞義始見於這個時期。 </p>       <p> 21.後起字和晚起字。指字形是後(晚)起的,詞也是後(晚)起的。如“塑”:“後起字。用泥土造人、物的形象”;“另”:“晚起字。另外。”如果字形是舊的,詞是新産生的,如“哥”字,在<span class="shuming">説文</span>中已有,注爲“聲也”。到<span class="zhuanming">唐</span>代,“哥”用指兄。這樣在“哥”下注:“後起詞。兄。”有時詞是古已有之的,而字形是新産生的。如“<span>断</span>”注爲:“鳥<span>断</span>卵。字本作孚。”前者爲同字異詞,後者爲同詞異字。 </p>       <p> 22.參見和見。本條已作注釋,爲提示讀者可作進一步瞭解,則用“參見”。如: </p>       <p> 〔嫵媚〕雙聲聯緜字。形態美的樣子。<span class="shuming">史記</span>作“娬媚”。參見“娬”字條。 </p>       <p> 如果本條無注釋,注釋設在另一條中,則用“見”。如:“娜” </p>       <p> 〔婀娜〕叠韻聯緜字。見“婀”字條。 </p>       <p> 有時採用<span class="shuming">爾雅</span>、<span class="shuming">説文</span>、<span class="shuming">廣韻</span>等書的釋義,也用“見”。如: </p>       <p> 辰,≮一≯震。見<span class="shuming">説文</span>。 </p>       <p> 23.符號。 </p>       <p> ~悔替代號。例證中替代被釋的單字,不替代複字詞。複字詞條目,例證中出被釋的字詞。 </p>       <p> ﹏悔書名號、篇名號。 </p>       <p> ―悔人名號、地名號、朝代名號。 </p>       <p> (悔)悔夾注號。用在作補充説明的地方。 </p>       <p> 〔悔〕悔條目號。用在複字詞,主要是聯緜字和少量的複合詞。 </p>       <p> 24.欄目。 </p>       <p> 字典設五種欄目。«1»[部首總論],對同一部的字從意義上作必要的分類和説明。«2»[備考],僻義歸入此欄目。義項號自成起訖。備考的位置在相應的音項下。«3»[辨],將意義相近或相關的字提出來進行辨析,説明其異同。«4»[同源字],從語源學角度説明一組同源字其音近義通的歷史根據。«5»按,分兩種情况。一種放在義項裏的,内容不固定,是爲了對注釋作補充;一種放在字條的最後,多爲交代<span class="shuming">説文</span>的收録情况,也有作其他方面説明的。 </p>       <p> 25.附録。本字典收附録兩種:(一)中國歷代紀元表。(二)中國歷代度量衡制演變簡表。 </p>       <p></p>      </div>

补上凡例。只用00字体,但发现空格用的加密字”悔“,我在解析字体时把空格排除了,所以没解;另外仍然有许多奇怪的字,看来在映射时还得优先正常字体与符号。
更新一下

“賖”字混在“賒”字条;“貸”字混在“貨”字条,䁾字条有混入字,本网站不显示此字。

那類問題有二十多,我已經改了。第一輪修改,完成了字頭和私有區字方面的事。(這都是藉合網數據本身的問題,跟 hua 的解碼工作沒關係。)
下一輪,要把所有圖片換成標準文字或是字型字形。

2 个赞


这个字别忘了改

诸位大神辛苦了,希望能早日完工,祝中秋快乐!

這個字形,方正字庫好像沒作,所以我從(方正)中華和辭源字型抽出成分,構造出來。全宋體有,但我盡量用中華數書局規度和風格。
這類字,辭源不用草字頭而用羊角;這應當也是王力的意思。“𬞱,目眵也。” 𦭝=𥄕,說文:𥄕,目不正也,从𠁥(羊角)从目。

1 个赞

你试过了嘛?用你这个思路可以解决现在遇到的问题吗,同时也能加上必要的标签吗?如果可以的话,我抽时间重写下处理逻辑。

1 个赞

我以为你说的字源数据呢,这个我试过。不过这几天也还在为解密伤脑筋,扩展A区在基本汉字之前,如果基本区(4e00-9fff)找不到,就得从头再跑,很费机器。
我觉得用笨方法也许有效,基本区找不到的字应该不多,先记下来,最后手工解密这些加密字。
标签是怎么回事,难道标签也加密了?如果是,还是得分区比对吧。
二次替换的问题对hua大肯定是小菜,就不说了。
这次学习解密遇到了不少坑,但也学到不少。想想ocr关键的一步不就是字形比对吗,如果对图片字降噪时找好阈值,再能知道所用字体,识别效果应该好很多。

为完善此字典出点力,制作上传“部首总论”。但我把里边无法显示的字用图片转成 base 64编码,单独作mdx文件正常显示图片,合到文字版则无法显示图片,请大神研究一下。
修正一下部首总论.txt (116.6 KB)

4 个赞

我不是发了解密出来的原数据嘛,你解密哪儿没懂呀,三个平面的点位是不重叠的,密文里面也对应三个字体,就这么着对比就行呀。标签没加密的,我是说怎么样才能减少我们为了美观增加的标签带来的问题。

#142 pending merge

原来你说的是美化。我因为开始以为是字源那个帖子,佛兄说用什么二分法,我以为解密不完美呢。
加标签我就是在你的解密数据基础上做的,先分大块,再分小块,效果会好点儿。但仍然会有观察不到的,尤其是原标签有问题的。没办法,少量的余留问题只能随见随改了。
解密时的比对逻辑hua大是怎么搞的?是先在基本区中找,找不到再从头找吗?这样感觉好笨。