说文网词典

好的,收到,谢谢

多谢修改样式!“�”真是个问题,也找不到出现规律。网页没问题,为什么抓取就有问题了呢?费解。
又发现少了一些图片字,稍后补上。

#2 帖子,我也許沒看懂,只能建議數據要先規範化才能安心用正則。要不然,難以預測正則替代的結果。
比如說:

find:>[\s]+<
replace:><
find:[\s]+</h2>
replace:</h2>
等等

關於�,這個問題一般是這類的:
test.txt (62 Bytes)

試驗:
find:([^s]+)[^s]
replace:\1

關鍵是“𬔊”(U+2C50A)跟“甲”(U+7532),字位不同,前者在正則佔兩個字位,後者佔一個。(也就是 U+XXXXX 跟 U+XXXX 之別。)除了我這個正則的傻寫法,要考慮漢字字位問題。(勾選“Match Whole Word”也沒有幫助。)

我以前用UltraEdit,save之前沒�,save之後就出現了。好像用BOM更會這個問題,但(在UltraEdit)不用也會有。偶爾是數據有些看不到的字位(即不佔寬度的字位)引起的。我後來不敢用UltraEdit了。

2 个赞

这一类是正则太简单造成的。
但正文中的�我是用python整页抓取的,连xpath都没用。

我是python傻逼,對那個沒話說。

𡂒字條:“从���。質聲”
原文是:“从口。質聲”

哈哈挺怪的。

昨天我也想到这了,所以用python把它先转成unicode码再处理。后来发现试了各种可能都不行,才发现是文件保存带来的问题。python对unicode还是很友好,刚才试着对\u0002c50a``match('.',s)没出问题。

您好,多谢分享,提个小问题,字形演变这块在nonwill的goldendict上显示不是很完美,目前是上下显示,希望改为原网站的左右显示,这样更能节省空间,多谢了。

抱歉,这个我也不会。不知道gd和mdict的差别

请问各位大神,可否再分享个最终完善版本的?我不知道你们说的是啥?额

mastameta在21楼分享的css图片是紧凑排列的,您的新分享的压缩包内的css图片是竖向排的,你是不是有所改动.

忘了,好像把宽度改成自动了吧

用了21楼的css以后,图片仍然是竖向排列的,是不是还需要改动mdx呢?