运用AI从csv文件制作一个300多万词条的mdx词典，并从另一个词典抄来词频数据

captain-e · 2025 年4 月 1 日 05:37

起因是想在电纸书方便查单词。电纸书内置的词典软件界面很小，所以我想要一个显示非常朴素的词典，不方便找，我就从：
https://github.com/skywind3000/ECDICT
这里下载了CSV格式的词典数据。这个词典数据的特点就在大而简，300多万词条，解释非常简短，正是我想要的。于是我用AI写脚本，再让脚本生成了mdx需要的文本。生成的原则是尽量朴素。方便用就行，反正电纸书显示面积小，也不支持彩色。

后来我又看到那个sound++词典里的词频信息非常好，就又让AI写脚本把它们抓下来，然后对比词条整合了进去。

下图是最终效果：

我把制作的过程录制成了视频：

https://www.bilibili.com/video/BV1G8Z4YnEf4/

现在的问题是：
我搞不懂为什么搜索phone，匹配的为什么会是-phone。
掌阅内置的词典不能搜索到a开头的单词，但在Mdict和GoldenDict-NG里都正常。