確實是原文本失誤,我錯了,原諒則箇!字源的部份很多這種問題,還得多費心了。
又修改了一些我看到的部份,先將就著,等高人出手:
ahd2024.mdx (16.6 MB)
@skippy
第1张图片中的错误,你能全部指出来吗?给个正确的格式。
第2张图片你的意思是右方括号前多了一个点吗?
第3张图片我看你标明的是多了个中文(或英文)状态下的逗号,你圈起来的这行的最后部分是不是右方括号前多了2个点?
第4张图片现在是中文状态的逗号,正确的应该是英文状态下的逗号吧?
我感觉这些问题我可以通过编程的方式自动处理。前提是知道什么格式不对,正确的格式是什么。
如果是已经知道源文本所有粘连“模式”,相信楼上其他坛友用正则表达式就处理完了。
您如果感兴趣修复,建议可以把mdx回溯成txt看看是否有什么特定的模式能一网打尽。
这个能详细说下吗?我感觉人工搞的话太慢了,有什么格式吗?我看看能不能用编程的方式批量处理 txt
(mdx
恢复为 txt
)。
(updated: 删了)
@skippy 我用你最新发的ahd2024.mdx在欧路词典安装,安装后查询字母 a
,样式和官网上差好多啊
我也发现你说的这个问题了,看我上一条回复,查询个字母 a
,问题出来了好多.
不过 mdx
恢复为 txt
是为了便于批量处理. 但批量处理前提是得知道处理什么,什么地方或什么格式有问题.
(updated: 删了)
@medp7060 上面你说的这个网站应该是这样用的
(updated: 删了)
我貼的那幾張圖都是AHD網頁的直接截圖,足見源文件就有一堆毛病。
(<— .mdx)
和 (<-- …innerText)
是什么意思啊
我写代码从官网请求的 9/11
数据在浏览器中展示的如下:
innerText
中展示的效果一样
安卓版APK能否提供一下呢,最好是和谐版的
@skippy 但是我在官网上查询 aphelion 的展示和 把你发的最新ahd2024.mdx安装在欧路词典中展示的效果差别挺大的
我可能知道是什么原因导致排版格式错误了,待我验证下。
如果能拿到比html更源头的数据,是可能未被污染的。
至于个人自己修,有现成的模型,直接调用 word ninja 。txt 是纯文本的 mdx 格式,提取出html的部分,再用beautifulsoup 提取出标签的纯文字的部分,再用 word ninja 库,判断是否为粘连,并自动修正,加上 HTML 标签,提示用户该文本是个人修复的,心里有个数。