对于一个大型文本来说,批量替换永远都会有风险。
因为所谓的“文本特征”都是个局部的观察,无法杜绝有黑天鹅。
毕竟不是提取文本出来,作为专门之用。有多条线在推进中,回退版本比较麻烦。
唐兄如有个人需求,不妨自己按此正则表达式修改后编译为mdx使用测试。一段时间过后,看看使用过程中有无bug
对于一个大型文本来说,批量替换永远都会有风险。
因为所谓的“文本特征”都是个局部的观察,无法杜绝有黑天鹅。
毕竟不是提取文本出来,作为专门之用。有多条线在推进中,回退版本比较麻烦。
唐兄如有个人需求,不妨自己按此正则表达式修改后编译为mdx使用测试。一段时间过后,看看使用过程中有无bug
这么看来确实没有我想象的那么直接和简单。其实我只是希望这样做能让引证尽可能占更少的垂直空间。但这需要考虑的问题确实比我想的多,所以M大您看合适或者值得花时间弄就试试
是的,可能会有漏网之鱼。但这个也不算是比较局部的观察,这两个特征还是能覆盖大多数的。我是想如果把大多数先搞定,那少数的后面发现也容易解决。
是的,我不太熟悉词典制作方面,所以没考虑到那么多问题。我正尝试自己进行测试,但我水平实在有限哈哈
排版在樓上討論過,可以把引證標籤換成 inline 就變緊湊了。我也很在乎 vertical space(所以說文的部份頂到字目同行),但釋文無論怎麼排還是佔不少空間。
褝:
U+891D,看來所有商業字庫 – 中易、細明、方正(中華、辭源)等字型 – 都採用日式簡體。(全宋體、天珩用中式字形;現漢黑體算是特製字型。)
這個字 1993 年加入 Unicode 1.1版,當時只有日式字形;後來大字典第二版時才給 Unicode 提交 “礻单”字形,跟 1993 隔了將近 20 年了。字型庫字形已定,幾乎不會再更改。所以這裡要特別修理。
“褝”跟“襌”都不在通用規範表,不知官方是否推薦用“褝”這個簡體。
U+891D,微軟雅黑、微軟正黑、中易仿宋都顯示日式簡體。呵呵。
Source Han Serif CN 顯示中式簡體。
这些都是不思进取的
升級到 Unicode 15.0:更新字頭 51 字,釋文 5 字。(之前說過,大字典不少字出現在例證但沒有自己字條。)
也修了些問題,例如“𠏮”字條引《說文》,“帀”誤作“币”。2018年修的大字典縮印本仍作“币”。
圍、𠥕:币→帀。
【𧔠】
<top dupe><hw><sup>17</sup><reg G>𧔠</reg></hw></top><p>同“<reg G>𧔠</reg>”。
同字后面的标签应该是<reg T>
因为原始数据里错误的点号(‧),以下子义项未能正确识别出来:
【杭】㈠ 3.
【以】㈠13-3.
【匹】7-4.
【黎】5-2.
同样有这帖提到的U+21377【𡍷】和U+5829【堩】字形相同问题。
U+5829 堩、U+21377 𡍷,在中華、中易等等簡體字型是重複字形。問題在字型庫那方,擇取字形與Unicode 標準脫離。這毛病也出現在紙本呵呵。
修了。
可以找大字典编写组要个说法
发现大字典有个字没有注拼音,于是查了查。
㠂、㮟、䛇、叩、岙、摁、椷、楲、耀、𰚼,拼音漏了。
“類推簡化字”两处,𰗘、𱊕。当为“类推简化字”。
㕶,漏了py标签。
50个字释义中多了一个字头,㕽䱦县叁鯏麿𠁣𠃛𠏄𠐂𠔤𠟢𠣗𡙙𡷬𢆖𢐳𣤆𥆱𥥰𦎲𦐷𦨓𦬢𧑵𧕩𨕌𨞋𨪕𨫗𨮰𨹪𩜑𩵺𩷀𩷩𩷪𩷫𩸪𩻬𩻭𩻰𩼎𩼛𩽅𩽈𩽒𪃮𪎡𪙕。
另:
“𧛾裆”,同一条例证:蒋防《霍小玉传》:“著石榴裙,紫𧛾裆,红绿帔子。”
王力、辞海释为:妇人袍。大字典另释为:背心的一种。
𥘌 :同“机”。
示旁与祭祀有关,木旁与草木有关。𥘌怎么会同机呢?太古怪。
這種衍字,數據原有好幾千。批量刪掉,但沒抓到這群,大概不像其他模式吧。
阿莱克斯兄所举“另”后面的两条已经属于大字典内容方面的问题了,M大表示非我之锅
实话说当时没看懂 昨天又看了看,想了想,试了试,终于搞明白了
不过为什么不用黑体拼音呢?我给拼音字体改了一下,加入了CSS
2550页有问题,不显示。
works fine for me. try reloading.