一般查词典流程:
- 打开/呼出查词典软件,输入进行精准/模糊查询单词/词条
- 翻找目标单词释义/用法
翻找这个过程太费事了,再短也要30秒左右?
为了解决优化这个过程,让AI来查词典不应该是最优方案吗?
所以我想这样干:
- 将mdx词典的数据解析出来(不知道难度如何,解析纯html吗?有更优解?)
- 让AI来模拟人的查询流程
细说这个查询交互的基本流程:
- 程序请求AI查询 “Take you time to think it over.” 中think的用法
- AI要求单词 “think” 的所有用法
- 程序将 “think” 的所有用法告知AI
- AI确定出句中的 “think” 用法为 “think something ↔ over”
或许将词典数据提取出来训练内置到AI中,创造出一个专用于查词典的AI是最/更优解?但是远超我的能力范围了
fufupu
3
我有类似想法,不过这属于建立如何agent方法了,Claude会生成总结,而非输出辞典内容,chatgpt4不会这样,但内容过长又变成输出总结了。
目前所有模型在livebench的语言评测除最高的65分o1,其余均分都不及格。
我的设想是,提供例句,词典工具,它定位要查的词,词组,然后确定可能义项序号,划重点,再让用户读辞典。
- 将mdx词典的数据解析出来
这个有没有什么更简单方法或其他想法?
直接把mdx的单词查询展示出的html发给AI,AI也能读懂确定义项。但是太浪费token了
1 Like
fufupu
5
用beautifulsoup解析,删除例句?然后正则校对输出与辞典原文?还是一张图片发过去,我不知道token哪种划算了,不过我设计LLM辅助工具的初步想法示意图时倾向用本地模型。
不过我个人主力辞典是MWOnline,简明,没考虑文本很长的牛津,朗文。请原谅我自以为辞典都是简明扼要的。
1 Like
aimdict
6
感觉毫无必要。GD-ng 连按ctrl+C 查词已经很方便。可以导入一个AI,作为辅助,如本论坛分享的硅基流动,我觉得这样的组合在目前条件下已经相当完美。将来随着AI的不断发展,或许会有更新的工具出现,到时再说吧。
1 Like
Shiro
7
我也常有类似的用法,对于有多个释义的词条,挑选最可能的几个释义或者是全部释义(手动复制),扔给ChatGPT,让它选择最符合当前语境的释义
之前有人做过相关的应用,记笔记。帖子里提到了词典数据处理的一种可行的方法,就是针对某一本词典写 JavaScript提取释义。那么对于本帖的问题,把这个提取的数据结构化,再喂给AI,应该是最省token的了
开头提到的用法可以看成是这个记笔记应用的前置,只不过是把人类浏览释义 ,并挑选最符合的释义的这个过程,优化成了利用AI分析语境的能力
3 Likes
步天歌
8
哈哈哈,看到坛友这么活跃,我也抛砖引玉分享下我在这方面的思考吧:
其实我就是馋大家的提示词
mdict6
9
天杀的开屏广告,才点完“跳过”就已经不记得自己想搜索什么了…
2 Likes
fufupu
10
对我而言,英语处理比较简单,日语汉语这种没有分词间隔(前者变化更复杂,如判断分词)怎么办?我个人模糊知道一些语言大概涉及性,数,格,时,态,体六种变化,有的是变形后形成的新词,有的是可还原到原型的。得重查两次?
关于supermemo20原则,我倾向在语言学习中占少量比重甚至弃用——日常语言使用,听说读写是语法,词汇,词组是全景的,而不是各种细节细化到各种词义,语法
一些学习者使用anki,学习复习的时间占比过长,渐渐忽略了读听沉浸的重要性。
我倾向使用固定资料+广泛资料来学习,我记得我另一个关于处理单词,词组的帖子,有网友推荐大量例句法,不过语焉不详
我想详细化ta的例句法,一个以大部分内容能理解的多个不同例句(从固定资料中打乱分析,加上上下文)一一呈现,以听力为主,文字为辅,代入切合义项用法解释或者语法书参考项(多种辞典相同释义的不同解释)为答案,采用fsrs的算法评级。
1 Like
”大量例句法“是我在你帖子下推荐的,语焉不详是因为正在深一步摸索,实操起来有一定难度,需要自己造很多轮子。
我还发过一个稍微详细一点点的帖子,站内搜索”理解大量句子学习单词“。
这里”AI简化查词典流程“也是为”大量例句法“服务的
- 还是这句”…,Take your time to think it over“. 这张卡片学习的idiom是”take your time“
- 但是”think it over“明显是个phrasal verb,但你不了解,所以大概你只能读懂但不会用
那么如果能在这张卡片中利用AI迅速/立即查询出”think something over“的用法。这种行为无异于在此卡片之外复习/新学习了另一个其他单词用法。
量化这个行为给”大量例句法“带来的收益的话,我认为保守至少提升30%以上,甚至可以达到60%以上。
fufupu
12
我觉得可以参考类似网址 vocabulary.com,该网址有不少题是根据真实语料的大量例句来用相近词,模糊释义选项来考察理解的,我只不过是选取了以不同解释的相近或是反义词的思想。
不过这种工作很累,个人几乎难以完成——十余年来,vocabulary.com 习题不下1.5亿道,经过筛选大致给用户来学习词汇有二十五万三千道。
与之类似的有AJATT1万例句法,我误解为只用1万例句就够了,但我接触原博客(强调听一万小时日语,读250本书)大体接触ALG等其他方法后,我认为单词,语法学习不能单独列出来,而是应以享受高度沉浸“杂食”材料为主,渐进重复材料而非词汇,语法卡片,增加可理解的语块
然后再说1万句子,材料中查询不下数次都难以理解的点,参考词频,语法复杂程度来做出的大致有一万左右的卡片(是根据接触的语料,选择义项做的,而非以大量辞典例句为主)
knetxp
13
是不是可以利用AI把所有词典的内容遍查整合成一个大词典,合并同义,何必例句,然后直接一次查完?