好的,收到,谢谢
多谢修改样式!“�”真是个问题,也找不到出现规律。网页没问题,为什么抓取就有问题了呢?费解。
又发现少了一些图片字,稍后补上。
#2 帖子,我也許沒看懂,只能建議數據要先規範化才能安心用正則。要不然,難以預測正則替代的結果。
比如說:
find:>[\s]+<
replace:><
find:[\s]+</h2
>
replace:</h2
>
等等
關於�,這個問題一般是這類的:
test.txt (62 Bytes)
試驗:
find:([^s]+)[^s]
replace:\1
關鍵是“𬔊”(U+2C50A)跟“甲”(U+7532),字位不同,前者在正則佔兩個字位,後者佔一個。(也就是 U+XXXXX 跟 U+XXXX 之別。)除了我這個正則的傻寫法,要考慮漢字字位問題。(勾選“Match Whole Word”也沒有幫助。)
我以前用UltraEdit,save之前沒�,save之後就出現了。好像用BOM更會這個問題,但(在UltraEdit)不用也會有。偶爾是數據有些看不到的字位(即不佔寬度的字位)引起的。我後來不敢用UltraEdit了。
这一类是正则太简单造成的。
但正文中的�我是用python整页抓取的,连xpath都没用。
我是python傻逼,對那個沒話說。
𡂒字條:“从���。質聲”
原文是:“从口。質聲”
哈哈挺怪的。
昨天我也想到这了,所以用python把它先转成unicode码再处理。后来发现试了各种可能都不行,才发现是文件保存带来的问题。python对unicode还是很友好,刚才试着对\u0002c50a``match('.',s)
没出问题。
抱歉,这个我也不会。不知道gd和mdict的差别
请问各位大神,可否再分享个最终完善版本的?我不知道你们说的是啥?额
mastameta在21楼分享的css图片是紧凑排列的,您的新分享的压缩包内的css图片是竖向排的,你是不是有所改动.
忘了,好像把宽度改成自动了吧
用了21楼的css以后,图片仍然是竖向排列的,是不是还需要改动mdx呢?