【2020.8.16】GoldenDict-2A11 - Tesseract+ OCR划词完美版 - macOS / Linux / Windows

简要: 全优化 稳定不卡 并发索引 极速启动 极速查询 支持动画 支持视频 原生内置OCR取词

Linux版,2020.06.20

划词完美版 - 基于Qt-5.12.8稳定版 GoldenDict-OCR-ubuntu-20.04-x64.tar.gz

整了一顿,好费劲也没制作成功AppImage,说我的linux版本太新,但好歹把依赖的库文件都给挑选出来了,字典功能正常,划词也都好使,就是包文件好大,因为lib下都是AppImage工具过滤来的包,很多都是系统自带的。演示视频:Video_20200615155612.7z (4.2 MB) ;GoldenDict下载:
GoldenDict-OCR-ubuntu-20.04-x64.tar.001.7z (32.0 MB)
GoldenDict-OCR-ubuntu-20.04-x64.tar.002.7z (32.0 MB)
GoldenDict-OCR-ubuntu-20.04-x64.tar.003.7z (28.0 MB)
增量包更新(2020.06.20):goldendict+bass-linux.7z (2.0 MB)

Mac版,演示视频,2020.06.16

划词完美版 - 基于Qt-5.9.9稳定版 GoldenDict.dmg

词典和划词功能都正常,ocr识别库的配置同windows版本。存在的问题:音频播放模块暂时仅有QtMultiMedia(播放时可能无声)和外部播放器两个;划词时全屏遮罩会灰掉或黑底(这时候按下鼠标划词是正常的也能成功查询)(Qt-5.12.8 亦无解决这个问题,据查此问题历史由来已久,不懂Object-C,问题搁置)

下载:GoldenDict-macOS-10.15.5-x64-2020.06.16.dmg.7z (39.0 MB)

因对mac不熟请朋友帮忙克服一些困难,这一版会较费劲,不会如win版一样几天一个小版本,需者可通过捐助(支持/打赏/Donate页面的二维码)方式获取终版,捐助时请备注:MG+邮箱。

划词演示视频请点此观看边看边划不成问题

更多演示


ocr划词

Tesseract OCR划词支持如下国家/地区语言的选配

OCR划词支持多国语言的选配,语言包太大,请从官方自取

Chinese Simplified Chinese-Simplified(vertical) Chinese-Traditional
Afrikaans Irish Norwegian
Amharic Galician Occitan(post1500)
Arabic Greek,Ancient(to1453) Oriya
Assamese Gujarati Panjabi;Punjabi
Azerbaijani Haitian;HaitianCreole Polish
Azerbaijani-Cyrilic Hebrew Portuguese
Belarusian Hindi Pushto;Pashto
Bengali Croatian Quechua
Tibetan Hungarian Romanian;Moldavian;Moldovan
Bosnian Armenian Russian
Breton Inuktitut Sanskrit
Bulgarian Indonesian Sinhala;Sinhalese
Catalan;Valencian Icelandic Slovak
Cebuano Italian Slovak-Fraktur
Czech Italian-Old Slovenian
Javanese Sindhi Japanese(vertical)
Spanish;Castilian Japanese Spanish;Castilian-Old
Chinese-Traditional(vertical) Kannada Albanian
Cherokee Georgian Serbian
Corsican Georgian-Old Serbian-Latin
Welsh Kazakh Sundanese
Danish CentralKhmer Swahili
Danish-Fraktur Kirghiz;Kyrgyz Swedish
German Kurmanji(Kurdish-LatinScript) Syriac
German-Fraktur Korean Tamil
Dhivehi;Divehi;Maldivian Korean(vertical) Tatar
Dzongkha Kurdish(ArabicScript) Telugu
Greek,Modern(1453-) Kurdish(ArabicScript) Tajik
English Lao Tagalog
English,Middle(1100-1500) Latin Thai
Esperanto Latvian Tigrinya
Mathandequations Lithuanian Tonga
Estonian Luxembourgish Turkish
Basque Malayalam Uighur;Uyghur
Faroese Marathi Ukrainian
Persian Macedonian Urdu
Filipino;Pilipino Maltese Uzbek
Finnish Mongolian Uzbek-Cyrilic
French Maori Vietnamese
German-Fraktur Malay Yiddish
French,Middle(ca.1400-1600) Burmese Yoruba
WesternFrisian Nepali Dutch;Flemish
ScottishGaelic;Gaelic
双擎OCR可随切随用


安装部署(同步更新) & 问题反馈

安装部署

msvc版最低系统需求:Win10.1903.x64; mingw版最低系统需求:Win7.SP1.
如是使用问题,请参考安装使用 GoldenDict 查词神器,文章比较大,内容比较全,看完后无论是一般使用还是奇淫技巧,您对GoldenDict都将‘刮目相看’。

  1. 下载微软运行时库
  2. 下载GoldenDict程序包(依个人需求选择其中一个就行啦)
    GoldenDict-Qt-5.12.9-msvc-16.7.1-x64-20200816.7z (ple9 :59.1 MB)
    GoldenDict-Qt-5.9-mingw32-20200417.7z (33.1 MB)
  3. 使用: 安装运行时库,解压GoldenDict程序包至某目录点击其中的GoldenDict.exe.
  4. 点此下载最新的升级包文件并解压,拷贝解压出的文件至GoldenDict目录覆盖原有的旧文件,点击其中的GoldenDict.exe.
  5. 安装OCR支持库:针对使用的平台(x86或x64)下载下面的包,将解压出的文件夹拷贝到GoldenDict的运行目录即可 :
    ocr_x64.7z (18.8 MB)
    ocr_x86.7z (18.3 MB)

如果我的劳动对您有所 帮助 ,您的 支持 将助我以 动力


更新日志:

2020.7.17 2A10:优化词典图标的加载处理(大幅降低内存占用 — 130部词典内存使用降低了至少120兆)。
2020.7.15 2A10:优化索引(加载后)所占用的内存;添加基于词典目录的自动群组功能:

词典来源 下的 文件 页面所添加的 词典文件所在目录基础(根)目录 ,以其下级存在字典的子目录(不递归)名自动添加群组,如果基础(根)目录下存在词典文件,自动添加以基础(根)目录名为名称的群组。

2020.7.7 2A10:查词结果的标签页(View)绑定词典群组 — 修改词典群组仅对当前标签页有效,多个标签页可以使用不同的词典群组,切换标签页时群组同步切换,在标签页上提示其所使用的词典群组信息及查询的词条内容;启用对GoldenDict自身标签页取词的开关(同 忽略GoldenDict自身的选择剪切变更 项)设置。
2020.7.6 2A10:修复插件化过程带入的问题(在打开 首选项 或 字典 对话框不做修改关闭或取消后ocr或音频引擎失效的问题);考量将WebView插件化(Webkit插件),以引入WebEngineView(WebEngine插件)。
2020.6.28 2A10:音频和ocr引擎适配插件机制。
2020.6.22 2A0F:修复linux下ffmpeg+ao库发音引擎(ao库打开设备失败)的问题。
2020.6.21 2A0F:linux系统下取词功能修复,macOS/Windows中取词功能按需挂载Accessibility/注册Hook接口。

在启用屏幕取词,但未使能取词功能的情况下不加载对应的功能模块 — 降低了资源占用,在Windows中尽可能的规避了Hook对系统及其它程序的负面影响 — 见前述。

2020.6.18 2A0E:Windows版本中删除Hook取词功能(Hook弊端见前述),清理并删除赞助码弹窗,检查更新功能使用官方方式 — 打开更新页面人工选择文件下载。

此为2A0最终版了,在2A0F版本(如有)将仅修复bug,不再做任何功能改进与更新;从2A10版本开始将逐步完成插件化的处理,代码不再与2A0版本兼容。

2020.6.17 2A0E:linux版本添加bass发音引擎;为划词增加Esc按键支持:

划词过程中的按键:鼠标右键 - 取消划词;待划屏状态(划取屏幕前) Esc按键- 取消划词;划屏过程中(按住鼠标左键未释放) Esc按键- 取消划取范围,释放鼠标左键后恢复待划屏状态。

2020.6.16 2A0E:macOS划词版ffmpeg+ao发音引擎问题修复:

在macOS平台上,因为QMediaPlayer的缺陷(无法从内存buf的io设备播放音频内容),Qt Multimedia引擎播放不了音频,故实际有效的发音引擎只有ffmpeg+ao和外部发音引擎两个。

2020.6.15 2A0E:适配Linux。

适用:Ubuntu 20.04 x64系统;使用AppImage过滤出来依赖库(lib下的文件),应该也能在其它linux发行版的最新版系统上运行。

2020.6.13 2A0E:紧急修复:“为ocr引擎设置默认识别库目录”,不修改ocr引擎的识别库目录,在ocr划词导致程序崩溃的问题,原因为为两个引擎设置的默认目录张冠李戴了 — 所以目录是无效的,该问题仅在全新安装(使用默认设置)时出现;已下载2020.6.12版本的仅更新GoldenDict.exe这一个程序文件也可以解决问题,手动从更新网页下载更新包方式部署请忽略2020.6.12日的更新包,小疏忽引发大问题,抱歉。
2020.6.12 2A0E:添加默认的ocr识别库(仅英文语言支持),为ocr引擎设置默认识别库目录;开放fmod和bass音频播放引擎;修复msvc版本Qt Multimedia音频引擎播放音频时无声亦无反馈的问题;OCR划词功能完美适配macOS(请从本页提供的链接下载GoldenDict.dmg 文件):

macOS OCR「划词版」存在的问题:音频播放模块暂时仅有Qt MultiMedia(播放时可能无声)和外部播放器两个,且QtMultiMedia可能是无效的(播放时无声亦无反馈信息),其它音频引擎在后续版本中适配。

2020.6.1 2A0D:修复枚举不到自安装的tts引擎的问题。关于tts引擎:

如果tts引擎组件为32位版本的,则只能为32位版本的GoldenDict加载使用,反之,64位的tts引擎组件则只能为64位版本的GoldenDict加载使用。

2020.5.27 2A0D:Add Zstd compression support for ZIM format:by Abs62
2020.5.26 2A0D:增加全局快捷键快速定位到输入框功能,通过首选项->热键开启(相关讨论请参考):

当主窗口为当前活动窗体时,聚焦到主窗口的输入框,否则,当存在查词浮窗时(若隐藏则先置顶显示),则聚焦到查词浮窗的输入框(可以在查词浮窗中连续查词,使用完毕按Esc键隐藏查词浮窗即可)。

2020.5.6 2A0C:增加对全局js脚本文件的支持:

需要在配置文件目录下新建 user.gjs 文件,在其中添加javascript代码即可,代码对查词结果页面全局有效(每个词典都可使用其中定义的变量和方法)。例,可以在 user.gjs 中加入jQuery的代码,这样各个词典就不需要使用单独的jQuery脚本文件了。对查词结果的内存使用会有一定的影响(降低了内存占用),同时减少了文件io操作,对结果页面的解析效率应该也会有小幅度的提升。

2020.4.17 2A0C:添加按根目录(content下的目录)自动分组功能,目录名即为组名; 检查更新 后的下载程序包或升级包功能已经生效「 感谢freemdict论坛提供的超大附件功能 」:

点击GoldenDict 帮助 菜单下的 检查更新 ,如有更新点击 下载 按钮,经验证(当前体验阶段, 随便输入 字符即可)确认后会 后台下载 升级包,下载完成后会提示 保存文件解压 下载的文件 覆盖 至GoldenDict目录即可。

2020.4.16 2A0C:针对64位版本的工具链(编译器)及依赖库(Qt、QtWebkit及第三方库)更新到最新版;添加有更新时经确认后的整包、基础包或升级包的自动下载功能,增加升级或更新的验证支持「暂缺对标的服务支持,当前并不生效,仅作功能体验」。
2020.4.14 2A0C:全版本开放双擎ocr划词支持。
2020.4.12 2A0C:针对32位版本的工具链及依赖库(编译器、Qt及第三方库更新)更新到最新版,Webkit增加对MathML的支持(可以使用html编写数学表达式啦)。
2020.4.5 2A0B:修复全图片词典mdd中图片读取错误的bug(感谢坛友last_idol):

词典样例:故訓匯纂-手機版(標準版) 由999阿彌陀佛 製作 2020.01.01,感谢!

2020.4.1 2A0B:添加Tesseract OCR,划词现在支持双引擎(Nicomsoft+Tesseract)和Linux/Unix/Mac平台啦;梳理并优化OCR处理流程,完成编译期支持处理,为运行时动态插件做准备。
更早
2020.3.28 2A0B:赞助码弹窗调整…
2020.3.24 2A0B:libtesseract(4)技术准备就绪….
2020.3.23 2A0B:开放trackClipboardChanges设置项(监控剪切版变化取词,感谢freemdict坛友pesticide4让我知道了GoldenDict还藏有这么一个彩蛋)
2020.3.18 2A0B:开放划词ocr语言的选配; 开始“庖丁解牛”,较长时间内将不会有小版本更新及bug修复……
2020.3.16 2A0A:添加手动更新检测;完善部分翻译。
2020.3.15 2A0A:修复划取(ocr)到的字符串仅有无效字符(标点符号等)时导致程序异常退出的问题。
2020.3.14 2A0A:使用ebu代替eb处理epwing格式字典。
2020.3.13 2A0A:增加Bass发音引擎(以替代万能但笨重的ffmpeg发音引擎),现在支持各种无损压缩音频格式啦;修复划词时选取区域为空(无字符)时程序异常退出的问题。
2020.3.12 2A0A:针对程序退出时的异常(表现为在部分机器上退出后再次启动程序失败,可能需要等待较长时间后才能正常启动)做处理(此bug在修复原版GD不能正确的保存/还原主窗口大小位置等状态的bug时引入)。
2020.3.8 2A0A:继续解决部分mdict格式切图词典在查词时读取图片数据失败的bug;在初始页面中加载更新日志。
2020.3.2 2A0A:尽可能的枚举出Windows系统自带的所有的语音引擎 (感谢pdawiki坛友 wangran915 的反馈)
2020.3.01 2A0A:解决部分mdict格式切图词典在查词时程序异常退出的BUG(:mdict格式不开放—-数据格式不明晰,GD读取时处理不当引发该问题)

词典样例:故訓匯纂-手機版(標準版) 由999阿彌陀佛 製作 2020.01.01,感谢!

2020.2.27 2A0A:OCR划词优化,为OCR划词增加配置界面,可单独为ocr划词设置热键啦(后续会增加取词语言配置选项)
2020.2.25 2A09:动态划图优化,提升OCR识别速度和精准度;修复双/多屏时在辅屏能划词但识别出错的问题;划词幕布随鼠标游动自动切屏
2020.2.21 2A09:OCR划词易用性增强,增加OCR支持包下载
2020.2.19 2A09:优化鼠标划词(原生内置OCR)识别功能,修复ocr模块异常和假忙的bug
2020.2.12 2A09:鼠标划词(原生内置OCR)识别体验版 – 默认设置支持中英文划词识别
2020.2.6 2A08:解决Qt Multimedia 发音引擎失效(不出声)的问题;解决打印功能失效的问题;剔除bgl格式词典显示的多余换行
2020.2.6 2A08:为mdx词典添加对 tif 格式图片的支持;zim和slob格式词典 tif 格式图片支持问题修复(暂时没有对应格式的图片词典来测试验证)。
2020.2.5 2A08:增加词典按照 路径(目录+文件名)来排序的功能;修复在词典设置对话框中增加了词典,不重启在查询到的字典列表中就不显示的问题。
2020.1.31 2A07:为金山数据的stardict格式词典增加样式表支持,所有该格式类型的词典共享同一样式 ---- 标签对应的类名称和样式都可由用户自定义,配置小修改,样式大统一,例:

解压附件文件sdct_k.style.7z (275 字节) 放到GD的配置目录下,编辑自定义的article-style.css使对应的样式生效。

2020.1.29 2A07:增加全文搜索结果的导入(从已保存的文件加载)导出(保存为文件)功能,搜索一次,随时使用。
2020.春节版(2A07):查词效率再次提升(同时降低了能耗);全文搜索功能全面优化 ---- 并发索引,词头去重,稳定不卡,界面优化。
2020.01.18 2A06:优化全文搜索和词典词条对话框的部分实现,避免可能出现的内存泄漏和界面假死现象;消灭保存文章功能的内存泄漏;重构保存文章时的进度显示;组织查询到的词典列表缩短界面阻塞时间。
2020.01.08 2A04:修复多部epwing格式词典时创建索引导致程序异常退出的问题(针对这格式的词典创建索引同步进行以避免线程安全问题导致的异常退出);版本信息中添加编译时间;修复xdxf格式词典def标签的序号错乱问题;修复自定义字典「程序」的类型序列化XML读错误问题;修复词典分组热键存取错误问题。
2020.01.06 2A02:弃用QtXml,使用效率更高的pugixml解析库,受影响部分:mdict/xdxf/stardict格式词典和forvo在线发音的解析,配置文件的读写(配置、收藏、历史记录文件);修复启动到托盘功能失效的问题。

注意:今后将仅维护2A版本;2A01及后续版本可与之前的老版本并存(同时)运行(共享运行目录和配置/词典/索引目录),但配置文件并不兼容且并不提供转换工具,使用2A01及后续版本您的所有关于GD偏好的个人设置(编辑菜单的词典和首选项)都必须手动重新设置。

2019.12.29 E3:优化启动信息显示;加强并发加载/索引词典的安全性。
2019.12.26 2019年终版: 支持修改字典显示名称;消灭一堆内存泄漏问题;优化启动界面的信息提示;并发初始化索引和加载词典,大大减少启动时间和重新扫描文件的耗时

2019.11.29 解决64位msvc2019版GD不能识别大小超2G文件的问题
… …
51 个赞

感谢分享!持续关注!

感谢提供64位最新版!辛苦了

是自己做的还是搬运?注明一下

3 个赞

好的 辛苦了

1 个赞

64位终于更新了,谢谢分享!

非常感谢!电脑主用工具

1 个赞

感谢楼主分享!

Golden Dict是个好东西啊~


(o゚▽゚)o

@nonwill 謝謝你的分享,在下使用之後,發現這個build的internal player庫qt multimedia沒有聲音(換回官方的build就有),ffmpeg+libao則和官方build一樣不支持某些音頻格式。

@nonwill

  • 不能保持用戶所設置的F3詞典窗口的大小
  • web inspector裏的URI/URL太長,官方build是縮成一行+tooltip的方式
    官方半年多沒發佈新二進制build了,樓主此舉值得贊揚。這個build速度也快過4月份的官方release,再次謝謝你花費時間和精力與大家分享。
1 个赞

另外,請問在windows 10下編譯goldendict 64位一共要安裝哪些軟件?vs一定要是舊版本嗎,除了vs,qt有沒有必要單獨安裝,還是只用在vs中安裝它的庫就行?

ffmpeg有的格式不能播放,暫時還是只用慢一些的老版了。
謝謝你。

楼主辛苦了,感谢分享!

more:
请教:这个msvc版本使用mdx+mdd的wav音频时无声音,提示信息为:警告:所引用的资源下载失败! 其他方面极好。而使用mingw版本是可以正常播放音频的。

这一版vocabulary的离线语音还是读不了。(也是引用资源下载失败)

不一定是32位问题。mingw32位版本就能读取。

感谢分享这么好的东东!!!

MDD超过3GB的词典样例:
数学辞海(全六卷)

MDX:
论坛附件下载数学辞海(全六卷).rar (1.7 MB)
MDD:

提取码:J8Uh

2 个赞

https://downloads.freemdict.com/Recommend/Merriam-Webster%20Dictionary%20Online.zip

1 个赞