PC各路词典App『OCR取词』个人使用体验分享

是文尝试从 界面设计,词典选取,取词操作、速度、识别率,等角度探讨 OCR取词 的个人向使用体验,大佬们轻喷。

◉ 缘起:

以往日子鲜有使用 OCR取词 功能,感觉只是鸡肋,而基本上只用划词释义(选取+复制,参考GoldenDict的Ctrl+C+C)。究其原因,在于所尝试过的词典App,要么识别率惨不忍睹,要么操作步骤繁琐,要么画风丑陋出戏。但自从发现了 OCR取词 的正确姿势,特别对于懒人如我,就再也回不去了,查词过程变为一种享受。

部分灵感源于:[经验心得] 【整理版】几种好玩的查词典方式

关于第3种查词方式:

比较不费力的查词方式:通过一系列脚本程序,比如OCR识别出单词自动调用词典,得到结果(避免手动输入)

我们经常遇到这种情况,微博上有人分享了一段名人名言的图片,里面有个单词你不认识,但你又懒得按部就班打开词典去查,如果可以通过一个快捷键,或者触摸板点击一下,就可以直接查词是不是特别爽(当然了,这种查词方式其实不仅限于图片上的文字,哪怕就是可复制的文字,也是可以通过这种方式查词的,毕竟你可能都懒得复制不是吗…

还于此:[经验交流] 【PC端取词之王】灵格斯(Lingoes),与欧路的比较及建议

很多情况下,只能转到主窗口查看,从而必须在主窗口与阅读文本之间切换阅读,造成总体取词与阅读效率的降低。

当你视线和精神倾注于某workflow中,如在Calibre中阅读悬疑小说正得劲儿,忽而遇到个词想查一下,这个时候若费劲去打开词典,再输入单词去查询,小说的代入感瞬间消散。特别是词典挤占大块屏幕空间,大面积遮挡下面小说窗口,查完单词再切换回去,这一来一回,鬼知道原先读到哪一行?又费一番功夫目视搜索。

取词的场景就在于,想要快速地 peek 一下,阅后即焚,立即转回原工作流中,不打断思路灵感。

◉ 界面:

一个视觉上“好”的取词popup界面,是保证取词体验的关键。这又包含了两个部分,一是窗口的设计风格,二是内容的展示或者说词典的选取。

私以为Mac词典的popup体验为上乘。有美图可鉴:

Mac

此popup窗口的设计风格,会让我误以为其与背后的应用程序是一个有机整体,充分融入背景环境中,而并非是打开了一个臃肿的词典App。几处要点在于:窗口与其下方应用程序形成层次感,是由窗口四周淡淡的阴影所烘托;色彩浅灰,与下方窗口的白色背景形成反差;背景半透(模糊效果为佳),整个观感浑然一体,造成一种沉浸式体验;再者是窗口弹出时带有果冻式动效,是一种视觉上的享受,不会显得突兀,使用体验倍增。

窗口的尺寸,以小为宜,避免大块遮蔽,并留足下方所查词汇上下文,确保其在视线范围以内。

再者是词典的内容,要一眼望去能够立刻、马上明白所查单词的含义,速战速决。所以词典的选取原则大抵是短小精悍,确保释义能够在有限的窗格空间里全量展现。词典内容的排版、风格,同样极大影响视觉体验,不过这就仁者见仁智者见智了。

有了好的界面和精练的词典之后,需要对二者有机结合。窗口的高度要能够随所展示内容的贫、富,去动态地伸缩变化,不应在仅有简短内容的情形下大面积留白。此外,以popup字体大小与待查文字所处上下文的字体相当为宜;字体过大,会让人误以为你在用老年机。

搜索枯肠,找不到合适的词汇形容,或许可称满足上述原则的设计为“无感查词”、“沉浸式查词”?

对比几家词典popup窗口,列位看官自有评判:

  • 有道词典:

  • 欧路词典:

  • GoldenDict Nonwill

GD nonwill

  • Lingoes:

Lingoes

  • 金山词霸:

PowerWord

私以为,有道的设计最好,小清新,层次感好;词典选取上众所周知,无回旋余地。Lingoes舒服,old school风格,搭配win7使用彰显和谐;自带的维科英汉字体醒目,尤为称赞。欧路则显得土里土气,蓝框框,无阴影层次;再看内容,上面半截均显多余:重复的词头、重复的音标、硕大的词典名称。至于GD Nonwill版嘛,不评价。。。当初我抛弃原版GD的主要原因就在于,上面那一排按钮没办法隐藏,闹心,哈哈哈哈。这里全是静态的展示;窗口弹出时没有哪家有任何动效可言,突兀,割裂感,使用体验大打折扣。

夹带私货Ahktionary效果一副,视觉上充分考虑了上述设计原则,王婆卖瓜:

◉ OCR:

取词体验的另一要义在于OCR。空有好看的动态、静态界面,没有操作简便、效率高的辨识,也只能沦为落灰的花瓶。江湖传闻,前有欧路取词无可匹敌,后有Nonwill大侠为GoldenDict助阵强力OCR插件,上有有道独步武林数十载,下有Babylon名不见经传,究竟孰强孰弱,试看各路高手华山论剑。搭比武擂台(扫描版pdf),设二十四关(单词),同时以闯关用时与过关数作为评判标准,每一关既可过关斩将(即可多次尝试),亦可体面地缴械投降。试看榜单如何:

  • 有道词典:(1分23秒,过6关)

OcrYoudao

  • 欧路词典:(57秒,过18关)

OcrEudic

  • GoldenDict Nonwill:(1分55秒,过21关)

OcrGoldenDict (1)

  • Babylon:(1分16秒,过11关)

OcrBabylon

  • WordWeb:(57秒,过7关)

OcrWordWeb

再附无名小卒踢馆:(26秒,全斩于马下)

OcrAhktionary (1)

天下武功无坚不破,唯快不破

话说回来,对于可复制的文字,划选或双击是常用的选取文字手段,是 “用户人工选择的结果,软件无需再猜测用户的意图,准确度是100%” —— 摘自灵格斯官网。对于懒人而言,双击需要动两下手指,更有甚者划选还需精确定位至待取文字前、后;若是不可选取的文字则无可奈何。OCR作为更通用化的取词方式而出现。最保险的办法,框选需要OCR的区域,是保证识别成功率的关键一环。但从按下快捷键触发框选到小心翼翼定位光标完成精确框选(画框框),未必比直接从键盘敲出单词来得痛快。特别是当文字前后排列致密,一不留神框大了框少了也在所难免,注意力完全集中在Ctrl+B+B画出那个框框上,原来工作流中的思路也被打断。所以看上面GD Nonwill的OCR测试,花费近两分钟,大多数时间是在Ctrl+B+B画框框。。。区别于框选,其他几家的解决方案均为点选,光标仅需随意置于待查单词任意位置,软件自行判别光标下的文字。来看欧路,尽管不受很多人待见,老实说,点选在日常使用中识别率是最好,识别速度也是最快的;不过取词的触发就很迷,不是每次都能触发,有时要尝试多次,忽冷忽热型,整体给人感觉“不跟手”,一言难尽。有道就不说了,基本上就没几个词识别出来的。而金山,其所用技术似乎很有局限性,没有录屏时可以识别,叠加上录屏软件就完全失效,所以没法放图。至于Babylon和WordWeb,权当充数。忽略掉框选的繁琐操作,GD最准最好用。

鼠标往上面一放,一键查询,我想这应该是最爽快的查词方式了吧。正如本贴第一个外链所提及的,识别率如若能做到接近100%,那么无论是不可复制文字的图片,还是可选取可复制的文字,OCR取词都将是快速peek查词的不二之选。鄙人最后一幅图上展示的小小尝试,于日常中已觉七分“堪用”。有个小小遗憾,本贴第一个链接里提到的第3种查词方式的动图展示挂了,那个是Mac上的一键查询,一直想看看效果究竟如何。我想,大抵和本帖最后一张图所展示的情形相似吧?哈哈哈哈。

以上。

11 个赞

老兄所提及的,在下搜了一下,發現有 Tooltip 和 Popover 兩種風格
Bootstrap 提供了Popover 的風格,設計上應該是還有很多樣式可以應用
or Bootstrap + jQuery

或者將查過的詞綁定當下的詞頭,然後以 Subnav 的方式記錄於上面類導航,且下次再查時可列入搜尋的目標,我是拿來當快速翻頁的功能
Tooltip

Popover

Bootstrap + jQuery

subnavigation menu

你这些都是在网页环境下的,脱离了网页就玩不转了吧我猜

Mdict 可行沒問題的,Bootstrap + jQuery 我試過,可以的,GD 應該是也可以

词典app里边有web的相关控件,可以在里边弹popup。那如果现在换到一个pdf阅读器的环境下,就没法弹一个窗口出来了吧。

嗯嗯,好像是喔!,因那些都是寫死在文檔內的html標簽,若要不在文檔內的…浮動額外跳出的 Popover…沒想過這麼深入的問題…

不知是否可用類似這放大鏡的概念去轉換

大概的想法,但我也不會
也就是需有一個框架把它包在裏面,另外用層的概念浮動於上方,而 js 與 pdf 屬同一層,利用 js 抓取座標且 開起一個 Popover 或 Tooltip 的視窗

1 个赞

感觉行不通,pdf嵌在网页中还有可能。不知道对不对。

以前用欧路和有道,转到GD时问过n大,说是欧陆也是有取词和划词之分的,Windows Hook的取词OCR的划词 - 一般情况我们小白都是傻傻分不清容易被忽悠,说是Hook最快最准(Hook到就是100%) - 但Hook不住成功率就是0,其它几家应该都是Hook,GD中的取词也是Hook, Hook取词完全不需要ocr配合。

Hook与OCR划图方式应该没有可比性 - 在可以Hook的地方取词OCR永远干不过Hook,可惜最新版的GD划词版完全移除了Hook取词

这几天不吵架,有时间学习了解了一些词典软件用的技术,看到楼主的大作,惊讶至极

寄望楼主能够在AHK词典软件中嵌入管理和下载freemdict网站上的词典的功能,点一下就可以下载自己喜欢的词典到指定文件夹,相信会吸引到更多的人使用,同时也能为freemdict的普及做出更大的贡献 @hua

给楼主补充一份简单的可用来【ocr取词】公平比赛的素材:


纯粹OCR比较,欧陆也不差,把AHK的钩子先挂起来,定能别无2再夺佳冠,楼主功德圆满,哈哈哈哈哈哈哈

引用

当你视线和大脑灌注于某个工作流中,比如用calibre在阅读某个悬疑小说正得劲儿,忽而遇到个单词想查一下,这个时候如果费劲去打开词典,再输入单词去查询,小说的代入感瞬间烟消云散。特别是词典挤占大量屏幕空间,大块遮挡了后面的calibre窗口,查完单词再切换回去,这一来一回,鬼知道原先读到哪一行?又费一番功夫目视搜索。

引用

Johnny_Van 兄所言極是呀!回朔是記憶的單元,哪怕是支字片語,藉回朔的過程中拼湊出完整的畫面,但目前的工具對於此部份的處理均是不足,若能強化此點,對於學習上必能助益
人的專注力很容易被一些目前程序規定且必要的多於的程序而導至分心,哪怕都是固定的 sop ,若能把這些查詞的 sop 融縮簡化,且回朔於某個步驟的定格,則對於專注度和記憶會有相當的提升,這是一個值得投入的改善的問題,畢竟這是一個效率和記憶可成正比的改善的問題

一起来激励 @Johnny_Van 兄,镇坛之宝呼之欲出,哈哈哈哈哈哈

2 个赞

fruition兄挺关心这个东东的,小 Robert 特地爬了几个相关的 url 出来,大家都学习一下,一起来促进楼主的竞品早日功成名就:

https://www.autohotkey.com/boards/viewtopic.php?t=18677

https://www.autohotkey.com/boards/viewtopic.php?f=6&t=72674

https://www.autohotkey.com/boards/viewtopic.php?t=36047

https://www.autohotkey.com/boards/viewtopic.php?t=21682

LostTemple 兄,有些尚屬架構的問題得花時間探索和規划,也和當下的工具成熟度有關,若無合適的開發工具勢必相當費力,或許暫時也只能期待如此的功能可早日問世

謝謝仁兄如此熱心,在下對於Autokey 的功能並不很清楚,其開發的延展性是否足夠或許有待商確,目下也無過多體力深入探討,首務之急還是先縱觀一翻,倘若感覺到了再去深入,畢竟從入門到深入瞭解到會應用的程度是一大磨合…光是培養感覺都得花上一段時間

Autokey 这个东东吧,多数入门级类脚本,看楼主的竞赛用截图,应该是某款游戏界面的 - fuck游戏进程应该是Autokey的特长,所以小 Robert 不能对楼主有过多的观望啦。


最希望的是楼主的这个工具吧,能够站在这个结果的楼顶,为什么呢?
对我们小白来说,“管理和下载freemdict网站上的词典的功能”这个是刚需吖 - 逛论坛耽误学习还容易被忽悠,查词典时候轻轻松松就获取到需要的词典,绝对是广大学子的福利 - 其它竞品可没有这样的功能的,亮点+热点+造福全球,何乐有不为呢?!

在下並非碼農…對於代碼的感覺真的很生疏…

1 个赞

我也不会写(还没法子自动构建强逻辑),但预设逻辑后分析一下还是可以的啦。
这里有一张电报里分享的图,仅有一个半月的统计区间,大致能表明一个优秀的app对站点和用户的影响吧


发这个吧,只是希望能够再激励一下发这个AHK词典的楼主 - 白痴杆头,再上一步,造福论坛,造福坛友,2福并举功德圆满丫
哈哈哈哈哈

可不是游戏界面哦,是扫描版pdf。选取那一部分作为评判标准,是考虑到复杂场景,包含图片、深色背景文字,会给识别率带来不小挑战。还有你要的素材:

  • 纯粹OCR也不差的 欧路词典:
    蓝色背景下的文字已经无法识别,另外我不太清楚欧路如何给俄语取词,也许是姿势不对?

OcrEudic2

  • GoldenDict Nonwill:

OcrGoldenDict2

  • Ahktionary:

OcrAhktionary2

我可没有作弊中间去打开软件、打开设置、再切换语言哦,全部一站操作

欧陆还是用的Hook吖,为什么不把那些个语言一起都选上呢

楼主这个不是不需要画框嘛

亮啦亮啦,哈哈哈哈

画框是要手动选取识别区域,点选原先已经演示过了。既有框选又有点选,岂不更好?

欧路要怎么Hook,你这个是一张图片,我不会,请赐教