前言
我写这个贴子是原本是为了整理杂乱的思绪,一些方法可能与先前原有,后续修改的冲突,原因是在过程中遇到困难而改变,或是发现他人可取的经验方法。
2025年3月中旬,结合ALG理论,整理CI,dreaminglanguage
注意automatic language growth仍在实验阶段,没有太多学术调查背书。一些实验变量难以控制,与“关键期”,“永远学不会外语”的多家说法可能存在冲突。
提出ALG的语言学家James Marvin Brown举行过一个小型泰语实验,参与者不少水平在实验结束后达到近似甚至就是母语者水平(AUA Language Center, Bangkok, Thailand)
ALG认为有一种因为过早输出,用外语组织思考这种忽略观察,理解的阶段而出现外语学习障碍的现象。该现象普遍存在其他语言学习方法,教学中,叫做ALG damage。
打基础时抛弃翻译,辞典的学习,以无文本听与视频为主
整体性
语言本身是整体的,单一注重词汇语法方面有些失去了整体性,衍生的许许多多工具,方法还是为了自己更好的理解,交流。
切不可以将辅助作为主餐,终究目标是去掉习惯性拐杖的——沉浸式翻译,anki,背词软件,mpv单词挖掘等各种产品;学外语的目标要么是为了接触外语材料时读起来,听起来流利自然,不费劲,不挣扎;要么与对应的母语者交流表达时流畅,优美,听起来自然,接受程度高。
从0到1,要是以打基础的心态学习,容易成为词汇矿工,不自然的语法词汇表达者。不求甚解地听与看书,缺乏敏感心却又不知道自己哪里不扎实。
绕来绕去,2个变量最重要,一是真实(LLM概率输出很难达到标准,我试过让多个LLM修改自己写的英文段落,结果还是被母语者说不自然,关于母语为英语者建议不使用AI学外语的帖子:Reddit - The heart of the internet ),大量,可理解性的输入;二是在大量输入下再有个一些错误纠正,写作表达的参考。
具体顺序,应调整三阶段为 1. 文字为辅,听力为主 2. 少量表达,文字阅读与听力结合,3. 自然表达包括说与写
1阶段后期2阶段前期,选择性补充一些发音,更复杂的语法知识。
本来母语习得也是从整体入手,而非词汇,语法单一方面入手,而后本身母语的学习也相比倒序进行(先学读写,在学听说)的二语者学习较快。
注意点是探索文章,音频试图表达了什么(观察理解的重要性顺序:整体>文章片段>句子>单词词组),多观察,而非分析,纠结自己不懂的地方,以大量输入化解自己不懂地方。
水平衡量和阶段参考示例,资料
阶段示意来源于Reddit - The heart of the internet
学习语言
-
已经掌握的语言
-
目前正学习的语言
-
使用可理解输入(comprehensible input)的时间
以7个不同等级划分:
例如,以下是中文母语者学习日语的等级:
-
Level 1: 0 小时
-
Level 2: 50 小时
-
Level 3: 150 小时
-
Level 4: 300 小时
-
Level 5: 600 小时
-
Level 6: 1000 小时
-
Level 7: 1500 小时
。
但是,如果学习的语言与母语属于同一语系(例如,会说普通话并学习粤语,会说俄语并学习乌克兰语),那么晋升到每个级别所需的时间将减半。
-
Level 1: 0 小时
-
Level 2: 25 小时
-
Level 3: 75 小时
-
Level 4: 150 小时
-
Level 5: 300 小时
-
Level 6: 500 小时
-
Level 7: 750 小时
反之亦然,如果学习语言在词汇和结构上与掌握的语言非常不同(例如,学习阿拉伯语),则所需时间将翻倍。
-
Level 1: 0 小时
-
Level 2: 100 小时
-
Level 3: 300 小时
-
Level 4: 600 小时
-
Level 5: 1200 小时
-
Level 6: 2000 小时
-
Level 7: 3000 小时
语料资料:
输入量整合:
婴儿语料输入,大概17000词一天
That study and other research say that ideally babies should hear 25 million words in the first four years of life – that’s an intimidating 17,000 words a day.
关于以阅读学习外语书籍量,themoeway 写出大概是三四十本书,AJATT 是二百五十本, themoeway 的 discord社区成员 写出大概是500册
关于听力量:
原典法是以精听200-400小时为准,以婴儿时间计算大概是2000小时
一些高阶冲刺的范例(可能有些极端)
电视剧材料处理方法应该是彻底关掉字幕,注意剧情和环境,尤其是语音,理解那些暗指的意思和细节,查词工作是看完,有了自己衡量的大概的理解,再说字幕中的生词处理的。
猛听有声书,有条件订阅audible,Netflix等学习不同外语。
书籍读不懂,不纠结,先跳过,看后续情节,不断调整书籍文章理解,水平上升后再返回来读一遍
关于AI学习外语2025年3月新增:
听到,看到的语言是表象的,背后的思索过程却被许多人忽略了,当一些人局限于“语言只是交流工具”的时候,他们却忽略了如何用词汇,语法描述复杂事物,如何精确描述一些事物特性,如何粗略概括几件事物的共同点等情况。
“语言只是交流工具”,当然婴儿的“咕咕嘎嘎”的语言也是交流,但日常语言不能只限于“咕咕嘎嘎”,“这个”,“那个”,“就像”等这些模糊词汇,这些依赖模糊的,主观感受的语言,阻碍人们深入探索一些话题,并由于缺乏澄清词汇意思,无法表达,理解对事实的不同主观感受,而陷入无意义的争吵。
个人使用经验,结合一些外语帖子,社群的建议——
目前推荐使用ai studio 的 gemini 2.0 除了thinking系列,pro最好,用于“语法纠错”还可以,它可一次提供不少语气,风格的对比,但有几个要点注意——
- 衔接,有时gemini会曲解文意来修改润色,使两个观点唐突组合在一个段落,缺乏逻辑
- 情感,语气,正式,非正式等,这离不开用户思考,取决于用户如何读空气了
- 注意最好是语法纠错,改写的会很头疼——语气过于平淡,观点唐突,词汇短语有些古怪,语法还行,不知道适用不适用。
- 读书!语法书!经典文学!AI只是工具,不是人的大脑运作不可或缺的一部分。
- 不能立即采用AI修改的文章片段,思考,再思考!自己想表达什么,语气如何,一些词汇是否自己了解,修改后是否符合自己想表达的。
RAG+辞典
不建议的:
- 直接翻译,或是直接简化文本完事
我的理由其实很简单,一些重要作品在AI hype之前早早有了各种翻译,简化本,但这么多年来,也没有发生大面积的,完全取代原本现象(原本的词语话句是有语境的,同样用原本使用的语种,解释,说明也有各派说法;更何况译本需要在词义,话句中做取舍,译本之间互相比较从未停过),也没有因为互联网的存在而使跨语种的信息大面积,快速的,流通起来,
目前直接接触的思考与交流还是胜过一些第三方的“折射”,翻译表面功夫容易,但涉及语境,情感,精确,模糊等多面取舍的时候,AI还是难以替代人工翻译。
- 直接将AI当成词典查单词意义。
目前LLM模型有一部分是概率性的,它只能给个大体,甚至不准确的解释。甚至不会指出一些语言上拼写的错误,造成生词误解。一些语言语料库正确性和真实性有可疑(去除英语外的其它语言)。高质量的语料难从众多的语料库中分类出来,且一些方面的数据不足
如:Gemini将汉语词“非洲”被解释成“不冷的大陆”,“非”成了“不冷”的意思
建议的:
-
规定一定的,正规的辞典或语法书文本(尤其是母语者广泛使用的)做token,让AI划出某个词,词组的释义和语法规则。
-
对例句不足的释义部分用AI分类语句,语句选择参考:广泛接受的,优质的经典作品,文章,影视作品台词,而非直接生成语句
-
查找自身容易在形状上弄混的词汇,摘出易混词查词典,拼写错的,不存在的词,可让AI试读,对比原本的词发音。
德语,有声书资源,频道(先以无字幕为主),以真人,非AI生成的为主
先不纠结das, der,die,dam等语法规则
nico wegs系列不错
German.Graded.Readers.Collection的有声书
经典文学的免费有声书平台