有没有觉得查词典太麻烦了?优化优化?

一般查词典流程:

  1. 打开/呼出查词典软件,输入进行精准/模糊查询单词/词条
  2. 翻找目标单词释义/用法

翻找这个过程太费事了,再短也要30秒左右?


为了解决优化这个过程,让AI来查词典不应该是最优方案吗?

所以我想这样干:

  1. 将mdx词典的数据解析出来(不知道难度如何,解析纯html吗?有更优解?)
  2. 让AI来模拟人的查询流程

细说这个查询交互的基本流程:

  1. 程序请求AI查询 “Take you time to think it over.” 中think的用法
  2. AI要求单词 “think” 的所有用法
  3. 程序将 “think” 的所有用法告知AI
  4. AI确定出句中的 “think” 用法为 “think something ↔ over”

或许将词典数据提取出来训练内置到AI中,创造出一个专用于查词典的AI是最/更优解?但是远超我的能力范围了

还可以剪贴板取词或划词翻译

我有类似想法,不过这属于建立如何agent方法了,Claude会生成总结,而非输出辞典内容,chatgpt4不会这样,但内容过长又变成输出总结了。

目前所有模型在livebench的语言评测除最高的65分o1,其余均分都不及格。

我的设想是,提供例句,词典工具,它定位要查的词,词组,然后确定可能义项序号,划重点,再让用户读辞典。

  1. 将mdx词典的数据解析出来

这个有没有什么更简单方法或其他想法?

直接把mdx的单词查询展示出的html发给AI,AI也能读懂确定义项。但是太浪费token了

1 Like

用beautifulsoup解析,删除例句?然后正则校对输出与辞典原文?还是一张图片发过去,我不知道token哪种划算了,不过我设计LLM辅助工具的初步想法示意图时倾向用本地模型。

不过我个人主力辞典是MWOnline,简明,没考虑文本很长的牛津,朗文。请原谅我自以为辞典都是简明扼要的。

1 Like

感觉毫无必要。GD-ng 连按ctrl+C 查词已经很方便。可以导入一个AI,作为辅助,如本论坛分享的硅基流动,我觉得这样的组合在目前条件下已经相当完美。将来随着AI的不断发展,或许会有更新的工具出现,到时再说吧。

1 Like

我也常有类似的用法,对于有多个释义的词条,挑选最可能的几个释义或者是全部释义(手动复制),扔给ChatGPT,让它选择最符合当前语境的释义

之前有人做过相关的应用,记笔记。帖子里提到了词典数据处理的一种可行的方法,就是针对某一本词典写 JavaScript提取释义。那么对于本帖的问题,把这个提取的数据结构化,再喂给AI,应该是最省token的了

开头提到的用法可以看成是这个记笔记应用的前置,只不过是把人类浏览释义 ,并挑选最符合的释义的这个过程,优化成了利用AI分析语境的能力

3 Likes

哈哈哈,看到坛友这么活跃,我也抛砖引玉分享下我在这方面的思考吧:

其实我就是馋大家的提示词

天杀的开屏广告,才点完“跳过”就已经不记得自己想搜索什么了…

2 Likes

对我而言,英语处理比较简单,日语汉语这种没有分词间隔(前者变化更复杂,如判断分词)怎么办?我个人模糊知道一些语言大概涉及性,数,格,时,态,体六种变化,有的是变形后形成的新词,有的是可还原到原型的。得重查两次?

关于supermemo20原则,我倾向在语言学习中占少量比重甚至弃用——日常语言使用,听说读写是语法,词汇,词组是全景的,而不是各种细节细化到各种词义,语法

一些学习者使用anki,学习复习的时间占比过长,渐渐忽略了读听沉浸的重要性。

我倾向使用固定资料+广泛资料来学习,我记得我另一个关于处理单词,词组的帖子,有网友推荐大量例句法,不过语焉不详

我想详细化ta的例句法,一个以大部分内容能理解的多个不同例句(从固定资料中打乱分析,加上上下文)一一呈现,以听力为主,文字为辅,代入切合义项用法解释或者语法书参考项(多种辞典相同释义的不同解释)为答案,采用fsrs的算法评级。

1 Like

”大量例句法“是我在你帖子下推荐的,语焉不详是因为正在深一步摸索,实操起来有一定难度,需要自己造很多轮子。

我还发过一个稍微详细一点点的帖子,站内搜索”理解大量句子学习单词“。


这里”AI简化查词典流程“也是为”大量例句法“服务的

  • 还是这句”…,Take your time to think it over“. 这张卡片学习的idiom是”take your time“
  • 但是”think it over“明显是个phrasal verb,但你不了解,所以大概你只能读懂但不会用

那么如果能在这张卡片中利用AI迅速/立即查询出”think something over“的用法。这种行为无异于在此卡片之外复习/新学习了另一个其他单词用法。

量化这个行为给”大量例句法“带来的收益的话,我认为保守至少提升30%以上,甚至可以达到60%以上。

我觉得可以参考类似网址 vocabulary.com,该网址有不少题是根据真实语料的大量例句来用相近词,模糊释义选项来考察理解的,我只不过是选取了以不同解释的相近或是反义词的思想。

不过这种工作很累,个人几乎难以完成——十余年来,vocabulary.com 习题不下1.5亿道,经过筛选大致给用户来学习词汇有二十五万三千道。

与之类似的有AJATT1万例句法,我误解为只用1万例句就够了,但我接触原博客(强调听一万小时日语,读250本书)大体接触ALG等其他方法后,我认为单词,语法学习不能单独列出来,而是应以享受高度沉浸“杂食”材料为主,渐进重复材料而非词汇,语法卡片,增加可理解的语块

然后再说1万句子,材料中查询不下数次都难以理解的点,参考词频,语法复杂程度来做出的大致有一万左右的卡片(是根据接触的语料,选择义项做的,而非以大量辞典例句为主)

是不是可以利用AI把所有词典的内容遍查整合成一个大词典,合并同义,何必例句,然后直接一次查完?