AHD 2024 Improve

確實是原文本失誤,我錯了,原諒則箇!字源的部份很多這種問題,還得多費心了。




又修改了一些我看到的部份,先將就著,等高人出手:
ahd2024.mdx (16.6 MB)

3 个赞

@skippy
第1张图片中的错误,你能全部指出来吗?给个正确的格式。

第2张图片你的意思是右方括号前多了一个点吗?

第3张图片我看你标明的是多了个中文(或英文)状态下的逗号,你圈起来的这行的最后部分是不是右方括号前多了2个点?

第4张图片现在是中文状态的逗号,正确的应该是英文状态下的逗号吧?

我感觉这些问题我可以通过编程的方式自动处理。前提是知道什么格式不对,正确的格式是什么。

我把你最新发的ahd20244.mdx安装在欧路词典里,怎么跟你第一张照片不一样啊,有些字符还不能展示,而且图片也加载不出来,图片放大功能也没有显示,有一行还没有缩进。

有一些格式统一的问题,比如数据粘连之类或其他的,我可以通过编程的方式批量处理。

如果是已经知道源文本所有粘连“模式”,相信楼上其他坛友用正则表达式就处理完了。
您如果感兴趣修复,建议可以把mdx回溯成txt看看是否有什么特定的模式能一网打尽。

我已经恢复为 txt 了,但不清楚具体都有什么问题,什么格式有问题,正确的格式是什么,我想针对特定的问题编程批量处理。

这个能详细说下吗?我感觉人工搞的话太慢了,有什么格式吗?我看看能不能用编程的方式批量处理 txtmdx 恢复为 txt)。

(updated: 删了)

@skippy 我用你最新发的ahd2024.mdx在欧路词典安装,安装后查询字母 a ,样式和官网上差好多啊

我也发现你说的这个问题了,看我上一条回复,查询个字母 a ,问题出来了好多.

不过 mdx 恢复为 txt 是为了便于批量处理. 但批量处理前提是得知道处理什么,什么地方或什么格式有问题.

@medp7060

这个操作你能详细说下吗?

另外"单词粘连" 有没有错误的格式样例,正确的格式又是什么?

问题一个一个来解决.

(updated: 删了)

@medp7060 上面你说的这个网站应该是这样用的

(updated: 删了)

我貼的那幾張圖都是AHD網頁的直接截圖,足見源文件就有一堆毛病。

(<— .mdx)(<-- …innerText) 是什么意思啊

我写代码从官网请求的 9/11 数据在浏览器中展示的如下:


@skippy 发的最新的ahd2024.mdx在欧路词典和 innerText 中展示的效果一样

安卓版APK能否提供一下呢,最好是和谐版的

@skippy 但是我在官网上查询 aphelion 的展示和 把你发的最新ahd2024.mdx安装在欧路词典中展示的效果差别挺大的

我可能知道是什么原因导致排版格式错误了,待我验证下。

如果能拿到比html更源头的数据,是可能未被污染的。

至于个人自己修,有现成的模型,直接调用 word ninja 。txt 是纯文本的 mdx 格式,提取出html的部分,再用beautifulsoup 提取出标签的纯文字的部分,再用 word ninja 库,判断是否为粘连,并自动修正,加上 HTML 标签,提示用户该文本是个人修复的,心里有个数。