我的vim折腾记录

准确地说,是neovim,我用来编辑mdict词典源文件。

问题1:

怎么删除《外研社牛津英汉汉英词典》里多余的拼音部分?

解决:

删漏网之鱼

参考:

[^<]*</span>
*, 这可能太宽泛, 最好事先全部提取并分类整理, 看看是不是没有遗漏, 也没有扩大
IMHO

What if the pinyin is not closed properly with the following span? which is in fact typical for many low quality html sources.

可以搜索transty_pinyin看看有没有漏的

确实还有漏网的,需要继续删

那个词条可能有标签没闭合之类的问题,可以看看的

不是没闭合,是某些标点符号也被加了额外的标签,看我更新的图。

只能说这本词典品质还蛮高的。如果标签错误太多,也做不到只用css就美化。

标签错误太多的话,有时候css都解决不了问题。

其实你搜一下,就会发现pda有删去拼音的版本了

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=28511这个帖子的和里面提到的梦想缤纷版能隐藏拼音

关于删拼音,论坛有人试过,认为汉英部分的不易处理,最终保留。https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=35476&extra=

独行者的原始版本我没有,但我看了两个基于它的提取词组版,里面都没有”删除”拼音部分(而是“隐藏”)。

另外,英汉、汉英部分的拼音标签完全不同,删掉前者,并不会对后者产生影响。

要成为精品必须得有热爱该词典的朋友不断洗版排版。
比如这里的MW2020离线发音版也很好,不过排版有待美化

MW版本太多太杂,很多人都不知道下哪一个。至于标签错误,一般爬下来的数据都不会有那么多(AHD除外)

也在用 vim。不过其 regex 语法有些不一样,找到的范例常要再转换才有用。

如果想用通常的regex,可以使用 \v 进行转换,比如说:

s/\v(\w+)/\u\1/g

感谢,我来试试。

楼主的问题解决了吗,我会点vim,正则表达式也懂点

都会用 Neovim 了还用截图而不是代码块……