J̥H́-讨论 - 词典软件应用及词库之一份好的电子词典可以有哪些特征?

在某相对不开放的论坛见到一个讨论对比文字版和图片版词典的帖子,我个人做了以下思考,文字版的优势也是对文字版词典的期待吧。

我把我的回答转到这里,在更开放的地方,希望收获更有趣的回答吧。

词典App文字版 / 可靠来源epub或mobi文字版 > 词典网站文字版 > 可靠来源pdf图片版(已校对OCR文字版>切图图片版>整页图片版>未校对OCR文字版)

其实文字版如果准确性能与书本持平的话,各方面好处可以吊打图片版(无论是否切图),个人觉得至少包括以下几点:

  1. 文字版可以调整缩进,让阅读更方便
  2. 文字版可以添加语音和图片(官方来源更佳),让内容更丰富
  3. 文字版可以上色,让阅读更快速抓住重点
  4. 文字版可以演绎,让后续应用更佳丰富(比如复制节选到笔记)
  5. 文字版可以自适应屏幕大小排版
  6. 文字版可以动态折叠,比如隐藏双解的中文,让词典适配不同使用习惯
  7. 文字版可以全文搜索,让查询多一种选择
  8. (欢迎持续补充列表)

诸位看官还有什么想法,可以让一本电子词典更佳上成呢?

注1: pdawiki.com,在这儿就不要有什么避讳了

文字版来源有限,也可从光盘镜像获得文字版,最好论坛加个OCR区,大家齐心协力接力慢慢搞,有空整个一,两页,时间长点,还是值得的。

词典的组织方式是词头。
电子词典,完全文本化or只有词头文本化,至少通过词头可以快速定位到词条内容,比pdf搜索好了不知道多少倍,尤其是多卷本大部头的。

好的电子词典,
当然是从出版方流出的完全文本版,但可遇不可求。自己ocr来实现文本化不太现实,容易错讹百出,所以说网友自制的切图版就好,还保证了内容的准确性。
此外,丰富的词条跳转链接、词条相关信息聚合可以最大程度发挥电子词典的优势。参见oald 9 online的See related entries: Driving,或直接查@topic_driving_overtake

mdx软件要是在查看的基础上方便添加词条跳转链接这种编辑功能就好了。

当下,效率和编辑是没办法兼容的,要想查询快,那就必须得编译了,编译了就没办法修改了。

OCR区的建议还是不错的,不过还得相应工具配合,工具开发需要牛人出现。

一份好的电子词典,应该对文本数据进行标注,方便统一所有词典的样式,及后续二次提取的操作,比如阅读词典,笔记注释,加入单词本,或导出pdf。当然也可以词典软件作者自己去适配,类似印象笔记或者简悦作者那样,收集常用词典,标注好结构,统一样式。

1 Like

nonwill兄有些高估我了哦,算法只是略知一二。其实,就我个人而言,最大的问题是现在没有太多的时间投入到这类事情中,很多时候都只能排给远期计划,现在更多的还是结实同好之友。

我这么理解你说的吧,好的词典应该在标签上尽量不污染全局,包含在自己的作用域里面但同时留出全局调整接口。实话说,因为是是有html技术的宽规范,是无法约束多个词典之间使用同样的结构以及样式分类class名称的。你的回复中只言片语提及了很多词典周边的运用,比如阅读词典、笔记注释、加入单词本以及导出pdf,我的观点是,这些已经脱离了词典的范畴了,更多是词典软件在功能成名可以包含哪些内容的范畴。 如果你是对C++毕竟感兴趣或者认识C++项目开发比较有经验的,欢迎关注我的另一个帖子 寻找词典软件制作合作小伙伴 希望有机会一起,制作出你心目中的好词典软件。

image

1 Like

文字版来源有限,不得不做切圖版的。

也都是相对说法吧,其实切图来源也只是因为可以扫描所以来源多一些。如果OCR技术成熟了,时间维度下相对未来时间点,以后文字版也还会不少。不过还得等待。