《拉鲁斯法汉双解词典》 文本数据(OCR)

AI 可以辅助人类提高效率,但挥之不去的幻觉、错漏使其无法完全替代人类。再好再先进的AI都替代不了你大脑里神经元之间的连接网络。

最近AI圈的一张热图

从 chatgpt 3.5 算起的 LLM ai 才发展了三年,说幻觉、错漏挥之不去为时尚早,大多数人的幻觉、错漏也挺多的,它可是进化了百万年,或者至少20-30万年的产物。chatgpt 刚开始连 3+8 是多少都算不对,而现在则拿到了奥数金牌。

再好再先进的ai是什么,我们还不知道。不过 LLM 有三个特性是人脑无法匹敌的:一,它的“神经元”(参数)理论容量是无限大,而人的大脑就限制在1000亿个神经元;二,它可以永生;三,它的边际复制、繁殖成本是零。可是人呢,活150岁也是死(至少目前),繁殖、再生产的成本很高。

人学外语,有不同目的。有的是实用,获取信息,跟人交流,在这方面 ai 基本可以替代了,没有真人可以流利使用100多种语言,但 LLM 能够做到。有的是消遣娱乐,对语言本身感兴趣,那 ai 的确没法替代你自己感受和爽快。

法文版、双解版的原书图像pdf等链接都在这个帖子里,自己都不去下载,谁来一对一专门对你服务?况且无论法文还是双解的原文nick都已经贴了,就是如图所示。

你都懒得下,怎么我又不是懒得”发一下原书的缩写“,而且我实际已经贴原书了,nick也贴了原文。

这些问题越问越奇怪了,主帖的TXT文件里开篇就有这些缩写。

多谢提醒,之前没有注意。

这个好像确实不太好处理,我先写个代码提取下普通的吧

1 个赞

(帖子已被作者删除)

法文句点讹误基本校改完毕,在校对的过程中,发现了法文版拉鲁斯 2. propre 词条一个很奇特的错误,/pxbal.dloc,猜测它应该是排版时用的特殊标记,不知为什么出现在正文当中了。

1 个赞

修了下公式和世纪表示用的上下标问题还有一些其他错误

还有少词问题,不过好像中文也不算错

还有发音不一致

image

少了一部分的
image

有的两个版本我也不知道发哪个对就没改

“化学公式:C₆H₅- NHhttps://www.compart.com/en/unicode/U+2082. ”——这里应该有失误。

公式和世纪的上下标问题我在改法文文字时注意到了,当时觉得无所谓,反正看得懂,弄复杂了反而有时在有些文本编辑器里显示不正常。当然,规范了更佳。

1 个赞