官网样式问题的确很大
粘连标签 可以通过css 解决 ,如有遗漏标签,自行补充
剩下没有标签分割的话,那必须得改原始数据, 驼峰的连词话正则查看下,再统计规律,手动替换下,其他粘连的话比较复杂,未处理
(?!==)\b((?:[A-Z])?[a-z.]+)([A-Z])([a-z]+)\b(?!\(|\.)
AHD2024.zip (17.0 MB)
官网样式问题的确很大
粘连标签 可以通过css 解决 ,如有遗漏标签,自行补充
剩下没有标签分割的话,那必须得改原始数据, 驼峰的连词话正则查看下,再统计规律,手动替换下,其他粘连的话比较复杂,未处理
(?!==)\b((?:[A-Z])?[a-z.]+)([A-Z])([a-z]+)\b(?!\(|\.)
AHD2024.zip (17.0 MB)
空格是css 引入,完美主义的,可以不用css 方案
可以编程修改html, 有规则有条件,实现也简单,注意加下例外条件
PS. 这个词典个人不用, 不会花太多精力,单单手动校正修改就花了2-3小时
再發個我隨手修改的。一定還有不少格式的毛病,畢竟是先天不良,只能將就了。AHD不是我常用的辭典,就此打住了。
The American Heritage Dictionary, 5th Ed.7z (16.6 MB)
Thanks for update.
But .1.mdd (offline pronunciations) doesn’t work with this version…
我在查b的时候发现没有图片,去官网核对,发现图片也缺失了。但是如果把图片地址换成https://www.ahdictionary.com/application/resources/arts/A5Bopener.jpg
就可以查到是有图片的,只是链接地址不对。
我依次刷了一遍字母表,相同情况的字母还有z,v,n,词条里没有图片,但是把上述地址中的B换成大写字母,就可以看到对应图片了
我看b词条的官网html里面图片网址本来就错了,文件名的扩展名前面多了一个空格,可能还存在类似情况。
如果要修的话,可能要请sunny在爬取文档看看出错图片的规律。出错模式单一的话还是有可能简单修复的。
ps:sunny在mdx里面甚至细心地替换了缺失图片的提示。
AHD2024.mdx
中类似的全部错误如下:
src0="/application/resources/arts/A5Bopener
src1="/application/resources/arts/THBopener
src0="/application/resources/arts/A5Buddha
src1="/application/resources/arts/THBuddha
src0="/application/resources/arts/A5crook
src1="/application/resources/arts/THcrook
src0="/application/resources/arts/A5deKooning
src1="/application/resources/arts/THdeKooning
src0="/application/resources/arts/A5fret
src1="/application/resources/arts/THfret
src0="/application/resources/arts/A5Sills
src1="/application/resources/arts/THSills
src0="/application/resources/arts/A5universal
src1="/application/resources/arts/THuniversal
按你的方法找到了几个缺失的图片和音频。还有其它缺失的内容我整理了一下,附在一楼了。要是能找到的话欢迎补充
补充下AHD2024.mdx
中类似的全部错误如下:
src0="/application/resources/arts/A5Bopener
src1="/application/resources/arts/THBopener
src0="/application/resources/arts/A5Buddha
src1="/application/resources/arts/THBuddha
src0="/application/resources/arts/A5crook
src1="/application/resources/arts/THcrook
src0="/application/resources/arts/A5deKooning
src1="/application/resources/arts/THdeKooning
src0="/application/resources/arts/A5fret
src1="/application/resources/arts/THfret
src0="/application/resources/arts/A5Sills
src1="/application/resources/arts/THSills
src0="/application/resources/arts/A5universal
src1="/application/resources/arts/THuniversal
请不要这样回贴,你发的内容是我在mdx中做的标记。(再看看一楼吧)
这句话是不对的,上面是我发的错误地方,只是你没看懂意思,
上面我这样发,便于你复制粘贴查找,理由如下:
我从一楼的链接下载mdx,如下所示:
当我在 GoldenDict-ng
查找 单词 Buddha
,结果显示如下:
实际上在 AHD2024.mdx
相应的 txt
文件中有图片:
错误原因
错误格式的图片名称中间有空格
解决办法
手动删除 AHD2024.mdx
相应的 txt
文件中图片名称中的空格,可以以英文字符 -
替代。
这样的错误没多少,因为图片名称除去前2个字符不一样,其他后面一样的,是同一个图片的不同格式,一个是放大前的图片,一个是放大后的图片,手动处理下就好,相似的全部错误如下(对于2024年5月23号更新的AHD2024.mdx
):
src0="/application/resources/arts/A5Buddha 2.jpg"
src1="/application/resources/arts/THBuddha 2.jpg"
src0="/application/resources/arts/A5crook 1.jpg"
src1="/application/resources/arts/THcrook 1.jpg"
src0="/application/resources/arts/A5deKooning .jpg"
src1="/application/resources/arts/THdeKooning .jpg"
src0="/application/resources/arts/A5fret 2.jpg"
src1="/application/resources/arts/THfret 2.jpg"
src0="/application/resources/arts/A5Sills Beverly.jpg"
src1="/application/resources/arts/THSills Beverly.jpg"
src0="/application/resources/arts/A5universal joint.jpg"
src1="/application/resources/arts/THuniversal joint.jpg"
你觉得为什么mdx源文件的src后面有序号0和1?官网有吗?你验证过你的解决方案了吗?
请删除你前面的回复,不要麻烦站长出手
对于你发的内容我很困惑,
首先,
这不是我觉得啊,这是事实。
官网有,请看下图:
验证过了啊,我看下面的图片,没猜错的话 buddha
的意思有一个是佛像的意思吧 ,看下图:
官网上是
这不是刚好相对应的吗?
另外,我不太清楚我这个解决方案是对的,为什么让删除,违反了本论坛哪条规则。
麻烦站长又是什么说法?
src后面的0和1是我做的标记。这些图片地址在之前处理数据的时候已经筛查出有问题了,并做了标记,只是没有去猜正确的地址。
你的回贴水分太多了,正真有用的信息只有一个,把地址中的空格换成-,而且频繁删改回贴,不知道你现在这个答案是第几版改出来的,我之前没看到这点
下面这版的信息没有一次改动,但你在接下来的回复可以看出应该是没有认真看我的回复。
我特地录制了个演示视频。
下面这个图片展示了我的回复,我一次都没有改动,但再看看你的回复,根本不理解我的意思:
我这边心平气和地说,也没有不文明用语,也没有跑题,你这边态度确实不怎么好。
可能最大的问题是之前全程你没理解我在说什么吧。
我理解你把我做过标记的地方发出来了,然后说发现了问题。把别人的话重复一遍,这是无用的信息
再加两个字说的就更清楚了,变为:
你发的内容是我在mdx中做的错误标记
不吹牛逼,为 AHD2024.mdx
的完善,贡献了自己的力量。
怪我回帖水分多??
麻烦楼主把有问题的点和需要注意的地方总结下,楼主也没给总结,
我还得花时间通过编程的方式找错误点,再给出正确的解决办法。
楼主,第2条的问题是不是都解决完了?
之前 @lza 发了一个,我又发了6个
src0="/application/resources/arts/A5Buddha 2.jpg"
src1="/application/resources/arts/THBuddha 2.jpg"
src0="/application/resources/arts/A5crook 1.jpg"
src1="/application/resources/arts/THcrook 1.jpg"
src0="/application/resources/arts/A5deKooning .jpg"
src1="/application/resources/arts/THdeKooning .jpg"
src0="/application/resources/arts/A5fret 2.jpg"
src1="/application/resources/arts/THfret 2.jpg"
src0="/application/resources/arts/A5Sills Beverly.jpg"
src1="/application/resources/arts/THSills Beverly.jpg"
src0="/application/resources/arts/A5universal joint.jpg"
src1="/application/resources/arts/THuniversal joint.jpg"