三民大辞典新版(6月13日最终更新,dictTango完美支持,用GD的朋友请绕道)

更想要未压缩的 :joy:

3939L01“𤓮”应是“𤓯”。
(这格式挺简洁 :grinning:

要不要做一个大V版? :joy:

1 个赞

等索引再完善完善。我觉得“极简版”也挺好的。

3 个赞

请问方便提供吗?@sxingbai :pray:

「压缩」一词可能导致误解。
我在扫描原图的基础上,做了二项工作:
1.全书正文皆为黑色印刷,故做黑白二值化处理,文本呈现比原图更善。此项亦可大幅降低图片档案长度。
(原图20GB,处理后为4GB。此所谓「压缩版」)
而原扫描图600DPI、4000+px宽度未做「压缩」,可保证处理后的图像不会比原图模糊。
2.统一宽度,切除四周白边,矫正歪斜页面,使之便于电子词典利用。
当然,若乐于使用20GB原图,亦未尝不可。


↑扫描原图

↑「压缩」图

2 个赞

还是有遗憾之处,有些笔划不见了:

忍不住吐槽gpt,原以爲已經説得比較清楚了,寫個程序應該没啥問題吧,誰知它來個這:

with open('file.txt', 'r') as f:    
    lines = f.readlines()

for i, line in enumerate(lines):    
    # 将第 5 列的欄替换为 1、2、3    
    line = line.replace('左欄', '1').replace('中欄', '2').replace('右欄', '3')    
        
    # 检查页数和栏    
    page_num, column = line.split()[-2:]  # 将页数和栏从行中提取    
    if page_num == previous_page_num:    
        # 如果页数与上一行相同,检查栏    
        if column == previous_column:    
            pass    
        elif column - 2 == previous_column:    
            page_num += 1    
        else:    
            print(line)    
    else:    
        # 如果页数比上一行多 1,检查栏    
        if column - 2 == previous_column:    
            pass    
        elif column - 1 == previous_column:    
            page_num -= 1    
        else:    
            print(line)    
        
    # 更新上一行的页数和栏    
    previous_page_num = page_num    
    previous_column = column

# 输出修改后的文件    
with open('file.txt', 'w') as f:    
    f.write(lines[i+1]) 

問題一大堆,變量没定義,條件不完整,加減弄反了,暈死。這個AI真的只能用于輔助,怎麽与新聞上説的差别那麽大呢,難道因爲咱是蹭飯吃的?

另外,跑一遍代碼,問題真不少:

other: 丶	/	丶	155	1	1第1條
p+1: 刀	10	創痍	674	1	1第1條
p-1: 刀	10	創造	673	1	1第2條
o=: 十	1	千官	779	3	3第1條
o+: 十	1	千年木	781	1	1第1條
o=: 十	6	卓錫	799	3	3第1條
p-1: 十	6	卑末	799	3	3第7條
o=: 十	6	卑	800	2	2第1條
other: 士	/	士	1307	1	1第1條
other: 巛	/	巛	1911	1	1第1條
other: 手	/	扌	2425	1	1第1條
other: 无	/	无	2787	1	1第1條
o+: 月	4	服刀	2931	1	1第1條
other: 木	/	木	2949	1	1第1條
o+: 木	1	本二	2966	2	2第1條
other: 欠	/	欠	3267	1	1第1條
o+: 火	5	為人	3827	1	1第1條
other: 玉	/	王	4071	1	1第1條
o=: 玉	10	瑪摩丹美術館	4149	3	3第1條
other: 用	/	用	4207	1	1第1條
o=: 米	8	精一	4861	3	3第1條
other: 艸	/	艹	5405	1	1第1條
o+: 行	/	行人	5835	1	1第1條
o+: 襾	3	要人	5953	1	1第1條
other: 谷	/	谷	6157	1	1第1條
o=: 豕	5	象人	6175	3	3第1條
other: 走	/	赱	6289	1	1第1條
o+: 辛	6	辟人	6437	2	2第1條
other: 辰	/	𨑃	6447	1	1第1條
other: 邑	/	𨙨	6579	1	1第1條
other: 長	/	镸	6853	1	1第1條
other: 青	/	青	7153	1	1第1條
other: 風	/	風	7297	1	1第1條
other: 骨	/	骨	7457	1	1第1條
o+: 骨	13	體己	7468	1	1第1條
o=: 齊	/	齊一	7778	3	3第1條

其中other所提示的内容可能上下文有問題,得手動修改。

此葉为扫描失误。只能寄望于持书者重新扫描。

原图是什么样子?不知可否方便提供? :pray:

1 个赞

#107 已放置一张原图对照。全部不便提供,抱歉。

只要这六张就好,毕竟楼主给的是小图,要求应该不过分 (是原图的笔划就不见了吗?):pray:

1 个赞

154、1306、1910、2424、2786、2948、3266頁數據全缺。
其它other提示不想再驗証了,想必都缺:4070、4206、5404、6156、6288、6446、 6578、6852、7152 、7296、7456。
共18頁。這麽多,呼籲大家攜手,補全數據,短時間内我是没這個精力弄。

1 个赞

可能请原本有纸本书的那位朋友帮忙吧,不然就拿前一版的补,凑合凑合…

这几页应该是空白页,其它的可能也是。

多謝!原來如此,都是新部首。
伸手党太多,乾點活没几個人願意,以后不想再分享了。

1 个赞

好消息,应该是空白页没错,我用旧版对照了。

马呀,这么多字头错误。
先来10个!!!右边是正确的

標賣 2595右02 摽賣
469左09
673左09 𠞘
1092中05 𠹦
㗪唲 1092中06 𠹦唲
1111中08 𠾑
4031右09 𤟭
1542左07 娎㛍
1544中01
1230右06 𡉚

zw5571单独制作一张 稍好 可替换(若无重新扫描)


原图如此↓我亦无语!

1 个赞

一個標賣,引出一堆標(摽)