这个地方清静,没有闲杂人。没什么人利用,太可惜了。我来发个帖子玩玩。在这里开会,像是密室会议啊,很好玩。
我想这个地方适合发征求意见稿,只发讯息征求少数人意见,征求意见后删掉文件,低调省事。
@sxingbai,@feiwu,@alexpeng,@Mastameta
我有几个跟随者,也许会跟着新帖跑到这里来。我先说明:这是学者的玩意儿,而且远远没到可以发布的程度,我纯粹是发个帖子玩玩,别发私信向我求书,那样可烦人啊。
旧本:
《㵄語大詞𥮏未刻藳》(研学版)
feiwu兄的《㵄語大詞𥮏復刻》和我的《㵄語大詞𥮏未刻藳》(研学版)对比:
其他截图:
我现在在学习css,改了改界面。内容改得还很少,只改动了千分之几(个位数)的词条吧,还不到可以自成一版本发布的程度。发这个帖纯粹是玩玩。
旧本冗余的标签和内容都被我用程式切除了,可以分行的地方都分行了,容易手动修改。
旧本简体转繁体的解释我删了。
原来的文本有449mb(包括跳转),我的文本只有376mb(不包括跳转,跳转已经切除存为独立文件)。
只有少数条目会做校记(有的其实是笔记,和校对无关),不然就太累了。有校记是学术版的特色。这真不适合一般人用,适合学者用。
我喜欢用Goldendict,不过Goldendict无法显示生僻字,有生僻字时,只好把内容复制到Emeditor里看。
抽出几条来做了一个小样本测试版,学习css,自己改出了一个新的css。都放在下面的附件里,各位有兴趣可以看看。
收的是有特色的文本,键入0可以去到目录。
hantest.zip (11.4 KB)
2 个赞
文字版狀況挺亂,又不全,我只在乎把圖像板的索引先搞好。
請問圖像板,有沒有詳細的 頁碼-字頭排次
信息?我所見過的索引只有 頁碼-字頭
,缺乏字頭次序。而且又把字頭本身與異體字跳轉都混在一起,無法確定某頁有多少字頭,某個字頭用哪個字形。
日本人原来的顺序大致是对的,但是没有序号。而且一页假如有多个异体词,可能只键入常见的一个,而且还用了旧体字。
我也在重整图像版的索引,但是工作量挺大。
例如查到有三千多词头重复,要对照原文查是怎么回事,一天差不多只能查50个,到目前为止只查了将近一千个,还有两千多个没弄完。
有掉词,有错字,有混用异体字,各种状况都有。
我的结论是:没有完善的图像版词头索引。
但是目前的图像版必须和文字版对照着看,可以发现许多问题。
我手上的 紫雪藍海 “漢語大詞典 清晰”版,不知是否最新。其 “:About” 沒提日期。我加工的是把 IDS、PUA、亂碼 詞頭升級到 Unicode 15.0。大概只花了半個小時呵呵。沒做別的。
漢語大詞典 清晰.rar (1.5 MB)
隨便舉個例子:
這是 060885 頁的跳轉,保留mdx原有的先後次序。
撚 |
@@@LINK=060885 |
撚子 |
@@@LINK=060885 |
撚巴 |
@@@LINK=060885 |
撚弄 |
@@@LINK=060885 |
撚抹 |
@@@LINK=060885 |
撚指 |
@@@LINK=060885 |
撚挑 |
@@@LINK=060885 |
撚支 |
@@@LINK=060885 |
撚枝 |
@@@LINK=060885 |
撚梢子 |
@@@LINK=060885 |
撚眉 |
@@@LINK=060885 |
撚粉 |
@@@LINK=060885 |
撚酸 |
@@@LINK=060885 |
撚金 |
@@@LINK=060885 |
撚錢 |
@@@LINK=060885 |
撚靶兒 |
@@@LINK=060885 |
撚髭 |
@@@LINK=060885 |
撚鬚 |
@@@LINK=060885 |
𢴼 |
@@@LINK=060885 |
𢴼𢴼 |
@@@LINK=060885 |
撝讓 |
@@@LINK=060885 |
上面詞頭漏了 㩆、撴(誤歸下頁)兩個字頭。文字版好像沒 㩆 字。
可以看出次序是按照 Unicode 編碼,跟紙書排次無關。也許包裝、解包 mdx 沒保留原來次序,但本來大概沒什麼特別排法。
1 个赞
下面这个索引(mdb)应该比较接近日本人原始资料的原貌,但是可能少了后来中国这边的增补?我忘了是怎么做的。
suoyin.zip (8.2 MB)
我自己加过资料的,顺序也乱了。
mdx解开后的索引当然都打乱了。
add file here
1 个赞
我早不用 MDict 官方軟件來打包、解包。
但我知道mdict-utils-master打包能保留索引次序。用重出 search word 可以測試,比如說:
A@@@LINK=B
A@@@LINK=C
無論B、C是什麼編碼,總是會先跳B,再跳C。
大词典的字词头应该是按笔顺排序的。应该可以复原(吧 )。但是遇到可简化的左边偏旁时,如言,就要人工调整了。
1 个赞
ms的excel的笔画排序,基本可以把光盘2.0mdx+紫雪蓝海图像版词条还原纸书顺序以及部首归属。我整理过页码以及部首归属,M兄如果需要,我找找发给你。