OED人机协作翻译(双解)项目

不是我建议你们粗制滥造,而是现在的AI实际上就没有能力达到你想要的效果。从你发送的deepseekR1的回复中可以看到,通篇都是狗屁不通的AI幻想,夏jb捏造数据和技术方法——都tm已经开始写小说了,看得我想吐。任何熟悉AI翻译工作的人都不会把这种科幻式的研究报告当作参考。

我用deepseek也翻译了几百万字的学术文献了,实际结论是现在的deepseek根本就不可靠!不说能不能准确反映原文的术语,它就连“准确遵照原文来翻译”这点上都时常出错。这不是你调整提示词或者参数就能解决的,这本质还是AI幻觉和指令遵循能力不行。

我本来还想说点什么,但我皱着眉看完楼里一大坨的deepseek科幻小说之后,我只想逃。一想到以后的人问AI“如何翻译文献?”,AI在网上搜索到这坨shit,还一本正经地吃下去,我真的哭笑不得。

到此为止,这个话题我不会再回复了。摊上您是我倒霉。

这句话应该是我来对你说。既觉deepseek不靠谱,然后却是也翻译了几百万字的学术文献了,神之操作。好吧,各自相安,我也只当吃了一只苍蝇。

看了半天,说个人观点:可以做,值得做,应该做。理由:有需求,AI可信度足够,坛友有能力。我们查词,有草草浏览了解词义的时候,看看单词的主要意思就行;有深究细剖查到底的时候,这时候最终会用到oed。大家词汇量的掌握参差不齐,不会个个都达到说母语者的地步,总有要查字典的时候。一个词看过查过,可能就记住了,没看过查过,就要靠google,靠字典。网上信息杂乱无章,良莠不齐,大家搜索时靠自我判断都能接受其搜索结果,为什么AI翻译出来的就一杆打倒呢?我认为能达到90%以上的准确度,就可用了。对于怀疑反对者,他们说的也许有些道理,然而我们可以把握一个度:做好了,认可你可以用,不认可不强求你用。乃至不宣传,不分享,自酿自饮,自娱自乐,有何不可?邓公说,多干事,少争论。极是。何况说到底这是一件有益无害之事。

同道者,能组织起来,分工分责,就可以开干了。我的方案是:1.采用免费AI,最好能一个文本翻译完,不然就分成十个二十个或几十个文本翻译;2. 递交文本文件,指定哪些翻译内容哪些不翻译(如词源就不需要翻译),得到英中两种文字的翻译结果;3. 把译文插入原mdx文本中,大功告成。

其中最重要的一步是从AI得到译文。这个工作谁来负责?最后一步我可以做(我有个可行的方案,近期做过类似工作,积累了一些经验。)

有意参与的同道,开干吧。实干成事,空谈误事。

3 个赞

其实 我个人的话已经行动了 已经基于OED写了部分常用单词 当然 我的写并不是纯粹的翻译

我们的初衷正在于此 你说的话 也是需要者的心里话

你呀 可能是年轻气盛吧 我前面都提醒过 你还是说脏话 不应该的 大度一点不好么 我们知道AI不完美的 但是为了方便大家 甘愿牺牲 当然 同时也希望能尽可能避免AI的不足 更是因为OED的体量 以个人的能力和力量根本不可能完成 所以 才不得不借助AI 但愿你放下态度 以平和的心态和大家一起交流 我们自然是欢迎的 当然也是希望听到不同声音的 毕竟 谁也不是生来做这个的 自然会有想不到的嘛 你说呢

干就是了!

好比身边新开一家著名餐厅,众说纷纭,有说好吃的,有说难吃的,有说贵的,有说平头老百姓没几个去吃的。既然出名,必有出众之处,进去探店尝尝就是了。哪怕真不好吃,或者吃的过程中不懂用刀叉被人笑话,好歹亲自尝过,也比店外指点议论的人更有发言权。

我说到底只是想要和碳基生物探讨问题而已,用心写了一大段话,结果上来就被人用AI蹦了一脸。我:???

关于某些问题我考虑后觉得还是有必要回应一下。现在的AI是极好的工具,但不是文献翻译领域的救世主。重点是认识到AI的功能与局限,从AI的实际能力出发,而不是把AI当成具有自我意识,能解决一切问题的智能生物。

AI的幻觉、不靠谱与它的便利、高效是AI的两面,使用并享受AI带来的便利,与批评AI的不足并不冲突。有些人抱有二极管思维,认为既然要使用AI,就应该忽略它的不足;否则就应该碰都别碰。如果不是真心希望使用AI改变生活,并付诸实践了,又怎么会被现在的AI搞得一身怨气?

既然准备搞这种大工程就应该有碰壁的觉悟,被人批评了自己的荒谬,就开始用人身攻击的方式保护自已自尊感,真的很幼稚。我们到底是在讨论如何实现计划,还是在争个谁对谁错?

为什么我说是骡子是马拉出来溜溜就知道了?因为只是用AI把OED翻译一遍的话,真的没有你们想象的困难。我初步思考了一下,用沉浸式翻译实现对OED的的汉化无非就以下几个步骤:

  • 将论坛已有的OOEEDD.mdx解包为txt文件,并将后缀改为html。
  • 优化文件格式以让沉浸式翻译的解析算法能理解文档格式。(也许不需要做复杂操作?我还没有见过沉浸式翻译无法解析的网站)
  • 把html文件上传给沉浸式翻译的文档翻译功能来自动翻译。
  • 下载翻译好的html文件。
  • html文件内容的结构改回原来mdx结构。
  • 把html重新打包为mdx格式。

完成这件事实际上就只需要具备以下几点条件:

  • 配置好沉浸式翻译
  • 一套好的AI翻译提示词
  • 熟悉mdx和html的结构
  • 会用正则表达式洗版
  • 有编辑html文件与解/打包mdx的软件工具
  • 有充足余额的API。(沉浸式的会员是一个方便且廉价的选择,初步看来是要比官网提供的API更便宜。)

只要打开设置里的富文本翻译,沉浸式翻译会把文本段落中的html标签一并发送AI。只要明确告知AI要保留html标签,原文的链接、行内图片、文本样式就都能在译文内得到保留。

沉浸式翻译向API发送的请求可以自定义包含的段落数量。据我实测,上下文能力只取决于使用的AI。

沉浸式翻译是在原文档中插入译文段落,这不会改变文档的结构。mdd、css、js之类的通通不需要管。


我其实还是希望有技术和愿意付出少量成本的大佬能实现这个项目,实在没有也没办法,因为这个项目说到底也是可有可无的。如果这个项目就这样无疾而终,我也就当是学个教训了。

我们本来一腔热情 结果听到一些不好听的话 难免不高兴 请包涵一下 其实 我们讨论的 也正是希望AI能朝着我们希望的方向走 而不是走进一个虚无的死胡同 否则 费劲巴拉的花了时间和精力 甚至金钱 却没有啥用 何苦呢 对吧 多说有益的话 其他带情绪的 不说为好 好吗

你担心的 其实也正是我们努力去避开的 不要再为此说些充满情绪的话了 多提有建设性的看法 多做实在事 好吧

我看了@137229提供的附件,似乎是最新版本的文本。我觉得单词词义的年代变化这一块可以不要。手头有个2022版本的mdx(关于词典:pacid),我觉得这种编排方式不错。如果能翻译出释义就是一件大功。

abacus n.
Brit. /ˈabəkəs/, U.S. /ˈæbəkəs/

Inflections: Plural abacuses, abaci Brit. /ˈabəsʌɪ/, U.S. /ˈæbəˌsaɪ/.

Forms: Middle English agabus, Middle English– abacus.

Origin: A borrowing from Latin. Etymon: Latin abacus.

Etymology: < classical Latin abacus slab-topped table, sideboard, slab at the top of a column, counting-board or sand table, board for playing games on, in post-classical Latin also the art of arithmetic (beginning of the 12th cent.) < ancient Greek ἄβακ-, ἄβαξ counting-board, plate, in Hellenistic Greek also board sprinkled with sand or dust for drawing geometrical diagrams, dice-board, of unknown origin; perhaps a loanword. Compare Middle French, French abaque counting board (c1160in Old French in an apparently isolated attestation; subsequently from 1701), the art of arithmetic (1267 as abac), upper part of the capital of a column (1561), Catalan àbac (1489), Spanish abaco (1605), Portuguese abaco (1548), Italian abaco (13th cent.). ※ In form agabus with metathesis of consonants.
1.
a. A board or tray strewn with sand in which numbers, letters, diagrams, etc., can be traced and erased. Cf. sandboard n. 1, sand-table n. (a) at sand n.2 Compounds 2a. Now rare (historical in later use).

b. Any of various devices on which calculation or counting is performed manually: esp. a frame with rows of wires or grooves along which beads are slid to perform calculations; (also) a table on which quantities are reckoned by means of counters, which are either loose or fixed to lines (now rare). ※ The ancient abacus usually contained grooves with beads sliding in them. The type with wires or rods with beads mounted on them appears to have spread from China and is widely used commercially in India, Africa, and the Far East (formerly also in the Soviet Union) (cf. soroban n., suan-pan n.); it was also used in the West in the 19th and early 20th centuries as an aid for teaching children.

  1. Architecture. The upper member of the capital of a column, supporting the architrave. ※ The form of the abacus differs: for example, in the Tuscan, Doric, and Ionic orders, it is a square or rectangular flat plate, but in the Corinthian and Composite orders, it is variously cut and ornamented. ※ Occasionally the abacus contains an inscription.

  2. Ancient Greek History and Roman History. A sideboard.

我们回头可以尝试着先做一下 看哪个路径更好 然后就着手做 你在这里提的路子就挺好的嘛 谢谢你

这个部分就可以不翻译的 词源和词义 还有部分例句是必须翻译的 OED中的很多例句还是很有难度的 有的读者可能会有理解上的困难

我其实无非是想在论坛上和志同道合的网友合作探讨与解决问题,在这个过程中我能获得认同感。但被人用AI的胡言乱语回复,还曲解我的意思,让我感到了侮辱。当一个人不被尊重的时候,很难考虑继续保持对他人的尊重。

可以理解 不过 还是希望你多点包容 宽容 毕竟 大家没有啥实际的冲突 更多只是言语上引起的 何苦呢