是文尝试从 界面设计,词典选取,取词操作、速度、识别率,等角度探讨 OCR取词 的个人向使用体验,大佬们轻喷。
◉ 缘起:
以往日子鲜有使用 OCR取词 功能,感觉只是鸡肋,而基本上只用划词释义(选取+复制,参考GoldenDict的Ctrl+C+C)。究其原因,在于所尝试过的词典App,要么识别率惨不忍睹,要么操作步骤繁琐,要么画风丑陋出戏。但自从发现了 OCR取词 的正确姿势,特别对于懒人如我,就再也回不去了,查词过程变为一种享受。
部分灵感源于:[经验心得] 【整理版】几种好玩的查词典方式
关于第3种查词方式:
比较不费力的查词方式:通过一系列脚本程序,比如OCR识别出单词自动调用词典,得到结果(避免手动输入)
我们经常遇到这种情况,微博上有人分享了一段名人名言的图片,里面有个单词你不认识,但你又懒得按部就班打开词典去查,如果可以通过一个快捷键,或者触摸板点击一下,就可以直接查词是不是特别爽(当然了,这种查词方式其实不仅限于图片上的文字,哪怕就是可复制的文字,也是可以通过这种方式查词的,毕竟你可能都懒得复制不是吗…
还于此:[经验交流] 【PC端取词之王】灵格斯(Lingoes),与欧路的比较及建议
很多情况下,只能转到主窗口查看,从而必须在主窗口与阅读文本之间切换阅读,造成总体取词与阅读效率的降低。
当你视线和精神倾注于某workflow中,如在Calibre中阅读悬疑小说正得劲儿,忽而遇到个词想查一下,这个时候若费劲去打开词典,再输入单词去查询,小说的代入感瞬间消散。特别是词典挤占大块屏幕空间,大面积遮挡下面小说窗口,查完单词再切换回去,这一来一回,鬼知道原先读到哪一行?又费一番功夫目视搜索。
取词的场景就在于,想要快速地 peek 一下,阅后即焚,立即转回原工作流中,不打断思路灵感。
◉ 界面:
一个视觉上“好”的取词popup界面,是保证取词体验的关键。这又包含了两个部分,一是窗口的设计风格,二是内容的展示或者说词典的选取。
私以为Mac词典的popup体验为上乘。有美图可鉴:

此popup窗口的设计风格,会让我误以为其与背后的应用程序是一个有机整体,充分融入背景环境中,而并非是打开了一个臃肿的词典App。几处要点在于:窗口与其下方应用程序形成层次感,是由窗口四周淡淡的阴影所烘托;色彩浅灰,与下方窗口的白色背景形成反差;背景半透(模糊效果为佳),整个观感浑然一体,造成一种沉浸式体验;再者是窗口弹出时带有果冻式动效,是一种视觉上的享受,不会显得突兀,使用体验倍增。
窗口的尺寸,以小为宜,避免大块遮蔽,并留足下方所查词汇上下文,确保其在视线范围以内。
再者是词典的内容,要一眼望去能够立刻、马上明白所查单词的含义,速战速决。所以词典的选取原则大抵是短小精悍,确保释义能够在有限的窗格空间里全量展现。词典内容的排版、风格,同样极大影响视觉体验,不过这就仁者见仁智者见智了。
有了好的界面和精练的词典之后,需要对二者有机结合。窗口的高度要能够随所展示内容的贫、富,去动态地伸缩变化,不应在仅有简短内容的情形下大面积留白。此外,以popup字体大小与待查文字所处上下文的字体相当为宜;字体过大,会让人误以为你在用老年机。
搜索枯肠,找不到合适的词汇形容,或许可称满足上述原则的设计为“无感查词”、“沉浸式查词”?
对比几家词典popup窗口,列位看官自有评判:
- 有道词典:
- 欧路词典:
- GoldenDict Nonwill

- Lingoes:

- 金山词霸:

私以为,有道的设计最好,小清新,层次感好;词典选取上众所周知,无回旋余地。Lingoes舒服,old school风格,搭配win7使用彰显和谐;自带的维科英汉字体醒目,尤为称赞。欧路则显得土里土气,蓝框框,无阴影层次;再看内容,上面半截均显多余:重复的词头、重复的音标、硕大的词典名称。至于GD Nonwill版嘛,不评价。。。当初我抛弃原版GD的主要原因就在于,上面那一排按钮没办法隐藏,闹心,哈哈哈哈。这里全是静态的展示;窗口弹出时没有哪家有任何动效可言,突兀,割裂感,使用体验大打折扣。
夹带私货Ahktionary效果一副,视觉上充分考虑了上述设计原则,王婆卖瓜:
◉ OCR:
取词体验的另一要义在于OCR。空有好看的动态、静态界面,没有操作简便、效率高的辨识,也只能沦为落灰的花瓶。江湖传闻,前有欧路取词无可匹敌,后有Nonwill大侠为GoldenDict助阵强力OCR插件,上有有道独步武林数十载,下有Babylon名不见经传,究竟孰强孰弱,试看各路高手华山论剑。搭比武擂台(扫描版pdf),设二十四关(单词),同时以闯关用时与过关数作为评判标准,每一关既可过关斩将(即可多次尝试),亦可体面地缴械投降。试看榜单如何:
- 有道词典:(1分23秒,过6关)

- 欧路词典:(57秒,过18关)

- GoldenDict Nonwill:(1分55秒,过21关)

- Babylon:(1分16秒,过11关)

- WordWeb:(57秒,过7关)

再附无名小卒踢馆:(26秒,全斩于马下)

天下武功无坚不破,唯快不破
话说回来,对于可复制的文字,划选或双击是常用的选取文字手段,是 “用户人工选择的结果,软件无需再猜测用户的意图,准确度是100%” —— 摘自灵格斯官网。对于懒人而言,双击需要动两下手指,更有甚者划选还需精确定位至待取文字前、后;若是不可选取的文字则无可奈何。OCR作为更通用化的取词方式而出现。最保险的办法,框选需要OCR的区域,是保证识别成功率的关键一环。但从按下快捷键触发框选到小心翼翼定位光标完成精确框选(画框框),未必比直接从键盘敲出单词来得痛快。特别是当文字前后排列致密,一不留神框大了框少了也在所难免,注意力完全集中在Ctrl+B+B画出那个框框上,原来工作流中的思路也被打断。所以看上面GD Nonwill的OCR测试,花费近两分钟,大多数时间是在Ctrl+B+B画框框。。。区别于框选,其他几家的解决方案均为点选,光标仅需随意置于待查单词任意位置,软件自行判别光标下的文字。来看欧路,尽管不受很多人待见,老实说,点选在日常使用中识别率是最好,识别速度也是最快的;不过取词的触发就很迷,不是每次都能触发,有时要尝试多次,忽冷忽热型,整体给人感觉“不跟手”,一言难尽。有道就不说了,基本上就没几个词识别出来的。而金山,其所用技术似乎很有局限性,没有录屏时可以识别,叠加上录屏软件就完全失效,所以没法放图。至于Babylon和WordWeb,权当充数。忽略掉框选的繁琐操作,GD最准最好用。
鼠标往上面一放,一键查询,我想这应该是最爽快的查词方式了吧。正如本贴第一个外链所提及的,识别率如若能做到接近100%,那么无论是不可复制文字的图片,还是可选取可复制的文字,OCR取词都将是快速peek查词的不二之选。鄙人最后一幅图上展示的小小尝试,于日常中已觉七分“堪用”。有个小小遗憾,本贴第一个链接里提到的第3种查词方式的动图展示挂了,那个是Mac上的一键查询,一直想看看效果究竟如何。我想,大抵和本帖最后一张图所展示的情形相似吧?哈哈哈哈。
以上。