[数据完善]王力古汉语字典文字版

王力古汉语字典文字版,已有数据
链接: 百度网盘 请输入提取码 提取码: cy6u

王力古汉语字典的文字版 ,籍合网的数据,不过是加密字体的,
我大致看了一下,几乎每个词条 专门对应一个字体,字体编码映射各不相同。
除了字头外,其他的字都是用的加密字体。

诸位高手可以看看 能不能还原。或者能呈现正确的数据也可以。

想解密的可以用這一個詞條作測試
適.rar (1.4 MB)

原数据:
WLGH.part01.rar (39 MB)
WLGH.part02.rar (39 MB)
WLGH.part03.rar (39 MB)
WLGH.part04.rar (39 MB)
WLGH.part05.rar (39 MB)
WLGH.part06.rar (39 MB)
WLGH.part07.rar (39 MB)
WLGH.part08.rar (39 MB)
WLGH.part09.rar (39 MB)
WLGH.part10.rar (25.6 MB)

图片版参考

3 Likes

如果需要校对这本词典的文字版,我先报个名

看了下这里面的文本,爬取数据用的帐号名,时间信息还在,或者去掉再发?5月份的数据,到9月都没解出来,感觉会很困难。发音的部份也没有加密,如果解不出来,可以提取出来给图片版用。

抓取得账号登录吧?这种反爬一般得从css、js以及字体文件中找线索,难度很大,单靠比对恐难破解。
hua老大以前不是破解过籍合网的数据吗?

1 Like

从来没有。

2 Likes

这个不是吗? :sweat_smile:

中华大字典那个页面是没有加密的。

根本没法匹配,翻了几十页,搜索<p>≮,每页的「一」字都是不同的编码。

1 Like

找到了,这个帖子

1 Like

简单改了下,没有解密,能正常显示,还有些小错误没修。有人能解密吗,要不再等等。

3 Likes

太造了!能正常显示不就是解密了吗?大神是怎么做到的? :heart:

這個只是正確呈現,複製到文本還是亂碼的。底層數據沒有復原。當然也可以閱讀,不能複製粘貼。相當於切詞圖片版了。

贊!這個再修訂一下 閱讀是沒問題了。可以先這樣做一下。解密再想辦法。

因为百度盘太慢,没有下载。刚看了一下,里面有字体文件,应该也有css、js等,能呈现应该离解密不远了。

想解密的可以用這一個詞條作測試,提供了一個詞條。

1 Like

我看了一下,应该是可以的哈,我试一下,所需时间可能比较长。需要哪个好心人把百度云转到其他盘一下,谷歌微软都行。

算了,我折腾着把百度云文件下载完了

2 Likes

我好奇也瞧了一下。我沒加樣式。這是「並」字條(1.txt):

顯示出來的「蒲迥切」,幕後這個「切」字形是掛在「瑶」的碼位(U+7476)。

「𠜶」字條(10.txt):

同一個「切」字形,在這裡是掛在「偔」的碼位(U+5054)。

這不是encryption,但也一樣破不開。它等於是拿標準字碼當做私有區來用,更嚴重的是每個字條好像有自己的「私有區」和 碼位–字形 的關係。總共有4000 TXT文件、24,000 WOFF字型,我估計其中8000字型有實在內容,anyway等於是4000獨立的私有區集,哈哈,這是高招。要「解密」,跟手工抄寫出來沒差多少。

頂多能看,但體積不像文字版,光8000個WOFF就佔362MB,不知道為啥那麼膨脹,但大多字形是重複的呵呵。有的WOFF我打不開,也許是故意這樣設計的。

1 Like

新的加密方式?
笨重无比,但原理简单。

如果加密思路如上所述,那还原为单一字体就基本上是个体力活。
wiki + 部件檢索 + 全宋体(或辞源字体)?

那个中华大词典的网页加密貌似是:每个词条都有一个钥匙去查询一个字体子集。
但当时的原始数据缺失了那个钥匙的数据信息。

不知道这个362MB的WOFF是不是字体子集的仓库。如果是,而且文本txt中保留了钥匙信息,那hua大可能有办法编程解决。

南来的北往的瞧一下啦,我对这些文字实在是门外汉,看一下有没有哪儿搞错了。反馈最好带对比截图,以及你得把对的和错的字帮我打出来,我好复制,我只会用拼音打字。

王力古汉语字典

1.shì施隻切,入,昔韻,審三。錫部。

≮一≯往,到…去。説文:“適,之也。”詩魏風碩鼠:“逝將去女,~彼樂土。”論語子路:“子~衛。”引申爲歸向,指向。左傳昭公十五年:“好惡不愆,民知所~,事無不濟。”杜預注:“適,歸也。”管子弟子職:“拚前而退,聚於户内,坐板排之,以葉~己,實帚于箕。”尹知章注:“適己,猶向己也。”≮二≯女子出嫁。左傳昭公元年:“子晳盛飾入,布幣而出。子南戎服入,左右射,超乘而出。女自房觀之,曰:‘子晳信美矣,抑子南,夫也。夫夫婦婦,所謂順也。’~子南氏。”世説新語任誕:“袁彦道有二妹,一~殷淵源,一~謝仁祖。”≮三≯適合,適宜。詩鄭風野有蔓草:“邂逅相遇,~我願兮。”商君書畫策:“神農非高於黄帝也,然其名尊者,~於時也。”銀雀山漢墓竹簡孫臏兵法兵情:“矢雖輕重得,前後~,猶不中〔招也〕。”引申爲滿足,即使適合。戰國策魏策一:“夫虧楚而益魏,攻楚而~秦,内嫁禍安國,此善事也。”漢書賈山傳:“秦王貪狼暴虐,殘賊天下,窮困萬民,以~其欲也。”≮四≯舒適,閒適。墨子辭過:“故聖人之爲衣服,~身體和肌膚而足矣。”楚辭戰國宋玉九辯:“堯舜皆有所舉任兮,故高枕而自~。”唐李商隱登樂游原詩:“向晚意不~,驅車登古原。”≮五≯副詞。正巧,恰好。左傳昭公十七年:“我高祖少皞摯之立也,鳳鳥~至。”戰國策趙策三:“此時魯仲連~游趙。”又爲剛好,適才。韓非子内儲説下:“荆~有謀,侏儒常先聞之以告惠文君。”漢書賈誼傳:“陛下之臣雖有悍如馮敬者,~啟其口,匕首已陷其匈矣。”≮六≯通“啻(chì)”。副詞。只,僅僅。孟子告子上:“飲食之人無有失也,則口腹豈~爲尺寸之膚哉?”趙岐注:“口腹豈但爲肥長尺寸之膚邪?”戰國策秦策二:“疑臣者不~三人,臣恐王爲臣之投杼也。”高誘注:“適音翅。”鮑彪注:“適啻同。”

[備考]«一»調節,節制。管子禁藏:“故聖人之制事也,能節宫室,~車輿以實藏,則國必富。”尹知章注:“不費於宫室車輿則庫藏自實也。”史記日者列傳:“四時不和不能調,歲穀不孰不能~。”司馬貞索隱:“適,猶調也。”«二»善,美好。荀子法行:“瑕~竝見,情也。”楊倞注:“適,玉之美澤調適之處也。”«三»齊等,弄匀稱。吕氏春秋處方:“至,舍。昭釐侯射鳥,其右攝其一靷,~之。”高誘注:“適,猶等也。”按:“適之,當爲使之適宜。”«四»辟領,古代喪服的領子。儀禮喪服:“負廣出於~寸,~博四寸,出於衰。”鄭玄注:“適,辟領也。”

2.dí都歷切,音嫡,入,錫韻,端。錫部。

≮七≯專主,作主。詩衛風伯兮:“豈無膏沐,誰~爲容?”毛傳:“適,主也。”韓非子心度:“故賢君之治國也,~於不亂之術。”≮八≯通“嫡”。宗法制度下指家庭的正支,跟“庶”相對。清朱珔説文假借義證:“嫡庶字古祇作適。”詩大雅大明:“天位殷~,使不挾四方。”毛傳:“紂居天位而殷之正適也。”儀禮喪服:“有~子者無~孫。”鄭玄注:“周之道,適子死,則立適孫,是適孫將上爲祖後者也。長子在,則皆爲庶孫耳。”又指正妻或正妻所生的兒子。左傳文公十八年:“仲爲不道,殺~立庶。”漢書杜欽傳:“其夜地震未央宫殿中,此必~妾將有争寵相害而爲患者,唯陛下深戒之。”顔師古注:“適讀曰嫡。嫡謂正后也。”≮九≯厚,重,親近。論語里仁:“君子之於天下也,無~也,無莫也,義之與比。”邢昺疏:“適,厚也。莫,薄也。”後漢書李固傳附李燮:“時潁川荀爽賈彪,雖俱知名而不相能,燮並交二子,情無~莫,世稱其平正。”≮十≯通“的”(後起用法)。目標,對象。後漢書何敞傳:“奉憲之吏,莫~討捕,縱迹不顧,主名不立。”李賢注:“適音的。謂無指的討捕也。”〔適適〕分明﹑清楚的樣子。晉干寶搜神記卷一六:“雖云夢不足怪,此何太適適?亦何惜不一驗之?”

3.dí集韻亭歷切,音敵,入,錫韻,定。錫部。

≮十一≯通“敵”。匹敵,相當。禮記雜記上:“大夫訃於同國,~者曰某不禄。”鄭玄注:“適,讀爲匹敵之敵。謂爵同者也。”漢董仲舒春秋繁露王道:“不得致天子之賦,不得~天子之貴。”凌曙注:“適,與敵同。”又爲仇敵。銀雀山漢墓竹簡孫子兵法實虚:“~不得與我戰者,膠其所之也。”按,通行本“適”作“敵”。墨子備城門:“不然,則有深怨於~,而有大功於上。”又爲抵擋。史記李斯列傳:“子嬰立三月,沛公兵從武關入,至咸陽,羣臣百官皆畔,不~。”裴駰集解引徐廣曰:“適音敵。”

[備考]通“諦(dì)”。仔細,注意。韓非子解老:“治鄉治邦演天下者,各以此科~觀息耗,則萬不失一。”王先慎集解:“用此程法,静觀動止,自無不知者。”陳奇猷集釋引孫蜀丞曰:“適與諦同。”

4.zhé集韻陟革切,音謫,入,麥韻,知。錫部。

≮十二≯通“謫”。譴責,懲罰。詩商頌殷武:“歲事來辟,勿予禍~,稼穡匪解。”毛傳:“適,過也。”王引之述聞:“謫與適通。”史記酈生陸賈列傳:“楚人拔滎陽,不堅守敖倉,迺引而東,令~卒分守成皋。”司馬貞索隱:“通俗文云:‘罰罪云讁’,即所謂讁戍。”又指天象變異,舊時視作天罰。禮記昏義:“是故男教不脩,陽事不得,~見於天,日爲之食。”鄭玄注:“適之言責也。”孔穎達疏:“謫謂日之將食之氣,氣見於上,所以責人君也。”

5.tì集韻他歷切,入,錫韻,透。錫部。

≮十三≯通“惕”。〔適適〕驚恐的樣子。莊子秋水:“於是埳井之鼃聞之,適適然驚,規規然自失也。”成玄英疏:“適適,驚怖之容。”

[辨]«1»之,適,如,赴,往。見“之”字條。

«2»會,適。見“會”字條。

«3»造,適。見“造”字條。
1 Like

想起來,“切”字分別掛在7476和5054,若別的字沒有再利用這些碼位,那還行。如果老是recycle 碼位,那就可笑了。

这不至于,

这当然算加密呀,古典密码学的思想嘛。

1 Like