说文网词典

xiaonanhai1982 · 2021 年10 月 3 日 00:53

好的，收到，谢谢

sxingbai · 2021 年10 月 3 日 04:52

多谢修改样式！“�”真是个问题，也找不到出现规律。网页没问题，为什么抓取就有问题了呢？费解。
又发现少了一些图片字，稍后补上。

Mastameta · 2021 年10 月 3 日 05:34

#2 帖子，我也許沒看懂，只能建議數據要先規範化才能安心用正則。要不然，難以預測正則替代的結果。
比如說：

find：>[\s]+<
replace：><
find：[\s]+</h2>
replace：</h2>
等等

關於�，這個問題一般是這類的：
test.txt (62 Bytes)

試驗：
find:([^s]+)[^s]
replace:\1

關鍵是“𬔊”（U+2C50A）跟“甲”（U+7532），字位不同，前者在正則佔兩個字位，後者佔一個。（也就是 U+XXXXX 跟 U+XXXX 之別。）除了我這個正則的傻寫法，要考慮漢字字位問題。（勾選“Match Whole Word”也沒有幫助。）

我以前用UltraEdit，save之前沒�，save之後就出現了。好像用BOM更會這個問題，但（在UltraEdit）不用也會有。偶爾是數據有些看不到的字位（即不佔寬度的字位）引起的。我後來不敢用UltraEdit了。

sxingbai · 2021 年10 月 3 日 05:53

这一类是正则太简单造成的。
但正文中的�我是用python整页抓取的，连xpath都没用。

Mastameta · 2021 年10 月 3 日 06:09

我是python傻逼，對那個沒話說。

𡂒字條：“从��。質聲”
原文是：“从口。質聲”

哈哈挺怪的。

sxingbai · 2021 年10 月 3 日 06:21

昨天我也想到这了，所以用python把它先转成unicode码再处理。后来发现试了各种可能都不行，才发现是文件保存带来的问题。python对unicode还是很友好，刚才试着对\u0002c50a``match('.',s)没出问题。

weshor · 2021 年10 月 3 日 10:19

您好，多谢分享，提个小问题，字形演变这块在nonwill的goldendict上显示不是很完美，目前是上下显示，希望改为原网站的左右显示，这样更能节省空间，多谢了。

sxingbai · 2021 年10 月 3 日 11:39

抱歉，这个我也不会。不知道gd和mdict的差别

東君2021 · 2021 年10 月 4 日 04:51

请问各位大神，可否再分享个最终完善版本的？我不知道你们说的是啥？额

hjtoh · 2021 年10 月 4 日 12:09

mastameta在21楼分享的css图片是紧凑排列的，您的新分享的压缩包内的css图片是竖向排的，你是不是有所改动.

sxingbai · 2021 年10 月 5 日 04:08

忘了，好像把宽度改成自动了吧

hahaya · 2021 年10 月 9 日 07:03

用了21楼的css以后，图片仍然是竖向排列的，是不是还需要改动mdx呢？