㵄語大詞𥮏未刻藳

这个地方清静,没有闲杂人。没什么人利用,太可惜了。我来发个帖子玩玩。在这里开会,像是密室会议啊,很好玩。

我想这个地方适合发征求意见稿,只发讯息征求少数人意见,征求意见后删掉文件,低调省事。

@sxingbai@feiwu@alexpeng@Mastameta

我有几个跟随者,也许会跟着新帖跑到这里来。我先说明:这是学者的玩意儿,而且远远没到可以发布的程度,我纯粹是发个帖子玩玩,别发私信向我求书,那样可烦人啊。

旧本:

《㵄語大詞𥮏未刻藳》(研学版)

feiwu兄的《㵄語大詞𥮏復刻》和我的《㵄語大詞𥮏未刻藳》(研学版)对比:

其他截图:

我现在在学习css,改了改界面。内容改得还很少,只改动了千分之几(个位数)的词条吧,还不到可以自成一版本发布的程度。发这个帖纯粹是玩玩。

旧本冗余的标签和内容都被我用程式切除了,可以分行的地方都分行了,容易手动修改。

旧本简体转繁体的解释我删了。

原来的文本有449mb(包括跳转),我的文本只有376mb(不包括跳转,跳转已经切除存为独立文件)。

只有少数条目会做校记(有的其实是笔记,和校对无关),不然就太累了。有校记是学术版的特色。这真不适合一般人用,适合学者用。

我喜欢用Goldendict,不过Goldendict无法显示生僻字,有生僻字时,只好把内容复制到Emeditor里看。

抽出几条来做了一个小样本测试版,学习css,自己改出了一个新的css。都放在下面的附件里,各位有兴趣可以看看。

收的是有特色的文本,键入0可以去到目录。

hantest.zip (11.4 KB)

2 个赞

文字版狀況挺亂,又不全,我只在乎把圖像板的索引先搞好。
請問圖像板,有沒有詳細的 頁碼-字頭排次 信息?我所見過的索引只有 頁碼-字頭,缺乏字頭次序。而且又把字頭本身與異體字跳轉都混在一起,無法確定某頁有多少字頭,某個字頭用哪個字形。

日本人原来的顺序大致是对的,但是没有序号。而且一页假如有多个异体词,可能只键入常见的一个,而且还用了旧体字。

我也在重整图像版的索引,但是工作量挺大。

例如查到有三千多词头重复,要对照原文查是怎么回事,一天差不多只能查50个,到目前为止只查了将近一千个,还有两千多个没弄完。

有掉词,有错字,有混用异体字,各种状况都有。

我的结论是:没有完善的图像版词头索引。

但是目前的图像版必须和文字版对照着看,可以发现许多问题。

我手上的 紫雪藍海 “漢語大詞典 清晰”版,不知是否最新。其 “:About” 沒提日期。我加工的是把 IDS、PUA、亂碼 詞頭升級到 Unicode 15.0。大概只花了半個小時呵呵。沒做別的。
漢語大詞典 清晰.rar (1.5 MB)

隨便舉個例子:
這是 060885 頁的跳轉,保留mdx原有的先後次序。

@@@LINK=060885
撚子 @@@LINK=060885
撚巴 @@@LINK=060885
撚弄 @@@LINK=060885
撚抹 @@@LINK=060885
撚指 @@@LINK=060885
撚挑 @@@LINK=060885
撚支 @@@LINK=060885
撚枝 @@@LINK=060885
撚梢子 @@@LINK=060885
撚眉 @@@LINK=060885
撚粉 @@@LINK=060885
撚酸 @@@LINK=060885
撚金 @@@LINK=060885
撚錢 @@@LINK=060885
撚靶兒 @@@LINK=060885
撚髭 @@@LINK=060885
撚鬚 @@@LINK=060885
𢴼 @@@LINK=060885
𢴼𢴼 @@@LINK=060885
撝讓 @@@LINK=060885

上面詞頭漏了 㩆、撴(誤歸下頁)兩個字頭。文字版好像沒 㩆 字。
可以看出次序是按照 Unicode 編碼,跟紙書排次無關。也許包裝、解包 mdx 沒保留原來次序,但本來大概沒什麼特別排法。

1 个赞

下面这个索引(mdb)应该比较接近日本人原始资料的原貌,但是可能少了后来中国这边的增补?我忘了是怎么做的。

suoyin.zip (8.2 MB)

我自己加过资料的,顺序也乱了。

mdx解开后的索引当然都打乱了。

add file here
1 个赞

我早不用 MDict 官方軟件來打包、解包。
但我知道mdict-utils-master打包能保留索引次序。用重出 search word 可以測試,比如說:

A@@@LINK=B
A@@@LINK=C

無論B、C是什麼編碼,總是會先跳B,再跳C。

大词典的字词头应该是按笔顺排序的。应该可以复原(吧 :grinning:)。但是遇到可简化的左边偏旁时,如言,就要人工调整了。

1 个赞

ms的excel的笔画排序,基本可以把光盘2.0mdx+紫雪蓝海图像版词条还原纸书顺序以及部首归属。我整理过页码以及部首归属,M兄如果需要,我找找发给你。