【交流】图片词典制作

       目前,诸多切图词典之中,chigre前辈的切图词典最为精细。在开始制作切图词典之前,我在pdawiki阅读了他所发布的所有帖子(截至2020/7/8,共100篇)。其中,重要的帖子评论也会看,次重要的帖子只看楼主回复,不重要的帖子(纯粹的展示帖)扫过,最后分类汇总集合成一份文档。

文档说明

       个别帖子的图片模糊,无法加载,文档未收录部分图片。原帖中的一些链接已失效,已尽可能补上正确的链接。内容上大多直接搬运原文,用流程图替换了少数文字。对小部分文字进行了精简和书面化处理。简体为主,保留了繁体。在每一小节的末尾均附有原帖信息,格式如下:


       其中,为了格式相对统一,对个别标题进行了更改,故与原帖标题不具有完全一致性。帖子楼层数记录的是阅帖时最末尾的楼层号,方便以后回阅。需要注意的是,楼层被顶或反对,管理员们的回帖均会对楼层排序产生影响,因此楼层数非100%准确。帖子有些较重要的评论,我将之归类后放入了【拓展】、【Q&A】(问题及解答)、【Tips】。比较遗憾的是并未记录评论者的信息,有需要可进入原帖进行全文搜索。

链接汇总

[1]vbnet.20200512彩色版Release_制作图片字典工具的试作. https://www.pdawiki.com/forum/thread-16663-1-1.html, 2016-5-9/2020-5-12, 601F

[2]孤影.图片版词典制作软件 2016年8月31日. https://www.pdawiki.com/forum/thread-17495-1-1.html, 2016-7-15/2016-9-2, 16F

[3]chigre3.一次性导入多张词典扫描图到单个PS文件. https://www.pdawiki.com/forum/thread-19231-1-1.html, 2016-11-30/2016-12-1, 7F

[4]chigre3.【03.13完成】新世纪英汉大词典 词条切图版 全索引. https://www.pdawiki.com/forum/thread-19228-1-1.html, 2016-11-29/2017-12-4, 112F

[5]chigre3.图片版词典,词头区域切片OCR,用FineReader识别. https://www.pdawiki.com/forum/thread-18046-1-1.html, 2016-8-26/2016-8-26, 7F

[6]chigre3.图片处理利器. https://www.pdawiki.com/forum/thread-19157-1-1.html, 2016-11-22/2016-11-22, 1F

[7]chigre3.20161116_【教程】全索引 精确定位 图片版 词典的制作. https://www.pdawiki.com/forum/thread-18134-1-1.html, 2016-9-3/2016-12-01, 54F

[8]chigre3.20181130更新_自动画线+OCR+切图+校对软件. https://www.pdawiki.com/forum/thread-19040-1-1.html, 2016-11-15/2018-11-30, 52F

[9]chigre3.图片版词典制作流程. https://www.pdawiki.com/forum/thread-22081-1-1.html, 2017-11-11 /2017-11-17, 6F

[10]chigre3.如何制作:全索引 切图版 图片词典. https://www.pdawiki.com/forum/thread-20129-1-1.html, 2017-3-11/2017-3-11, 6F

[11]Oeasy.[设想]一种新的词典格式[专为图片版词典设计]. https://www.pdawiki.com/forum/thread-22035-1-1.html, 2017-11-5/2017-11-5, 9F

[12]chigre3. https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=22035&page=1#pid520858, 2017-11-14/2017-11-14, 1F-3F

[13]chigre3.【图片版词典】ComicEnhancerPro 自动裁边设置. https://www.pdawiki.com/forum/thread-22291-1-1.html, 2017-12-6/2017-12-6, 12F

[14]chigre3.【05.03完成】ENCARTA英汉双解大词典 词条切图版. https://www.pdawiki.com/forum/thread-20122-1-1.html, 2017-3-10/2017-05-04, 58F

[15]chigre3.利用 EXCEL 词条排序校对【切图版 图片词典】. https://www.pdawiki.com/forum/thread-21258-1-1.html, 2017-7-24/2017-7-24, 3F

[16]chigre3.[切图版词典制作]检查切图区域的上下边界. https://www.pdawiki.com/forum/thread-32152-1-1.html, 2018-12-19/2018-12-19, 12F

[17]chigre3.[18.09.30制作中]DK·牛津英漢双解大詞典. https://www.pdawiki.com/forum/thread-29943-1-1.html, 2018-7-31/20180-10-1, 19F

[18]chigre3.[切图版词典制作]抠出的彩色插图后续处理. https://www.pdawiki.com/forum/thread-31005-1-1.html, 2018-10-2/2018-10-2, 3F

[19]chigre3.[切图版词典制作]切图后除去多余空白. https://www.pdawiki.com/forum/thread-31004-1-1.html, 2018-10-2/2018-10-2, 2F

[20]chigre3.获取正文页面的首末单词索引. https://www.pdawiki.com/forum/thread-29187-1-1.html, 2018-6-30/2018-6-30, 7F

[21]chigre3.[切图版词典制作]手工录入图片词典页末单词. https://www.pdawiki.com/forum/thread-31027-1-1.html, 2018-10-3/2018-10-3, 3F

[22]chigre3.词头行+插图 高亮 -> ; 检查是否有缺漏. https://www.pdawiki.com/forum/thread-30979-1-1.html, 2018-9-30/2018-9-30, 3F

[23]chigre3.【切图版的进一步】切图的全文检索. https://www.pdawiki.com/forum/thread-31453-1-1.html, 2018-11-1/2018-11-1, 8F

[24]chigre3.安卓自动点击 多点 顺序复制文本. https://www.pdawiki.com/forum/thread-31876-1-1.html, 2018-11-28/2018-11-28, 7F

[25]VimVim.如何批量清除扫描字典图片中的ABCD索引提示区. https://www.pdawiki.com/forum/thread-32876-1-1.html, 2019-1-30/2019-1-30 , 8F

[26]chigre3.【图片版词典】整理框架. https://www.pdawiki.com/forum/thread-32829-1-1.html, 2019-1-28/2019-1-28, 6F

[27]chigre3.[切图版词典制作]纯黑白下带底色区域文字不清的变通解决. https://www.pdawiki.com/forum/thread-32353-1-1.html, 2019-1-3/2019-1-3, 7F

[28]chigre3.[2020.05.14更新]遠東英漢大辭典 全索引詞頭. https://www.pdawiki.com/forum/thread-35976-1-1.html, 2019-09-23/2020-5-14, 97F

[29]匿名.【圖片辭典】譯文版牛津英漢雙解詞典 張柏然 2011. https://www.pdawiki.com/forum/thread-40863-1-1.html, 2020-6-29/2020-7-17, 173F

◆ 教程篇

◇ 图片词典制作流程

chigre3.图片版词典制作流程. https://www.pdawiki.com/forum/thread-22081-1-1.html, 2017-11-11 /2017-11-17, 6F

图片词典整理框架

从上而下,依照制作精力耗费、完美程度升序排列(越往下,耗费精力越多,质量越好):

  1. 【页首单词】或者【页末单词】
    解决方案:
    (1) 在GoldenDict中加载python外置小代码,实现查询单词定位到页的整页图片版
    (2) 在Mdict PC版中加载制作好了页首页末索引,利用Mdict PC版本身的输入单词定位到页
  2. 使用【页首单词】或者【页末单词】,对更大范围的词头索引进行分隔操作
    解决方案:
    (1) 分隔后的粗略索引直接定位到整页
    (2) 分隔后的粗略索引进行人工校对,得到精确索引:
    (A) 不带坐标
    (B) 附带坐标: 画线软件,在各种辅助提示下高效人工校对索引
    (b1) 带高亮显示的精确定位框、支持锚点跳转的整页版
    (b2) 根据坐标信息进行计算而得到的切图版,一个词头对应1+以上的小切图
    (b3) 合并b1+b2的整页版+切图版

拓展
怎样快速扫描一本书并做成电子版?
https://www.zhihu.com/question/31136504

Fujitsu ix1500可以做到高速的书本转PDF并做OCR,大概每秒1面,缺点就是要把词典切掉封籍,OCR技术目前看成熟度也会是一个问题,可能会需要单独选择一个OCR软件做识别更好。

chigre3.【图片版词典】整理框架. https://www.pdawiki.com/forum/thread-32829-1-1.html, 2019-1-28/2019-1-28, 6F

制作全索引切图版图片词典步骤(图文版)

![p2|690x156]![p2|690x156]




chigre3.如何制作:全索引 切图版 图片词典. https://www.pdawiki.com/forum/thread-20129-1-1.html, 2017-3-11/2017-3-11, 6F

全索引精确定位图片版词典教程


(2栏图片版词典的层与CSS设计)
1. 高分辨率清晰规整图片:
(1) PDG转PIC:使用“老马”的"pdg2pic"(http://yun.baidu.com/s/1qXFS9dy)
:arrow_lower_right:使用“ComicEnhancerPro”对高分辨率图片进行批量处理为黑白双色
–> 使用“Abbyy FineReader”对图片仅进行校直
–> 另存为:PNG(灰度,方便下面拉到Photoshop里可以自由拖移到模板里)
(2) 使用Photoshop,建立固定大小的模板,拉若干条参考线(中线、文本顶端线/下画线、左右边界线)每张图片至少保证中线一致、文本框不会超出顶端线
–> 一次性打开50张图片,再一张张拖入到上面的模板中,全选所有图层,居中,再一张张慢慢移位
–> 最终:【脚本】->【把图层导出到文件】–>【文件类型:TIFF, 图像压缩:LZW】(这样速度快!)
–> 还可以继续使用“老马”的 “ComicEnhancerPro” 将图片缩小化,转换格式为png

2. 完整词条索引及其位置:
(1) 使用文本编辑软件,或从空白手工打字录入,或从大索引(若干原文词典的词头删重后的词条索引)进行增删修改
–> 例如使用EmEditor, 加载构词法文件进行【拼写检查】, 可以在编辑文本的时候提示拼写问题
–> 使用 @vbnet 的工具软件, 加载图片和索引, 点击词条获取XY坐标位置20160710更新( 全部)_制作图片字典工具的试作. https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=16663


(2) 使用@vbnet的的工具软件(还在测试中),自动画线、OCR、校对、一对一词条内容整体切图 一体化(@chigre3 修改优化)
https://www.pdawiki.com/forum/thread-19040-1-1.html

最优化自动画线–>核对–>文本框高亮匹配提示–>集中化的列表显示校对:

软件参数自定义设置的一些说明:
全自动智能画线:
自动 完整单词区域 切图,导出一一对应的文本,方便后期制作【切图版图片词典】
(3) 使用 @孤影的工具软件。论坛无下载:图片版词典制作软件 2016年8月31日 https://www.pdawiki.com/forum/thread-17495-1-1.html
–> 加载图片,配合按键精灵脚本,自动批量获取所有页面的词条XY坐标,导出词条所在区域的图片切片,FineReader进行OCR导出并整理OCR文本,得到一致数量的所有词条
–> 校验模式下对词头进行核对:程序会判断词条是否在大索引文本中是否有匹配,若存在,则绿色背景色,否则橙色背景色;两者均为提示作用,不代表一定对/错

3. 导入数据至模板得文本:
(1) 设定好初始条件:

  1. 几栏?↓下拉选择↓:2栏 --> 一般均为2栏,目前所见仅《英汉大词典》为3栏
  2. 图片宽度(123栏):1547 --> 极为重要,计算词条DIV层的margin-top数值等等
  3. 图片高度:2259 --> 用于计算正常屏幕双栏显示时,右栏DIV层的整体上移百分比
  4. 行距(高亮px):20 --> 用于计算词条高亮的高度
  5. 正文总页数:2297
    页数差: -2297 --> 限于模板公式, 若页面无任何词条, 会出现整页及文本的内容无生成, 根据提示手动补充
  6. 手机屏幕宽度(px):360 --> 用于计算CSS模板中双栏变为单栏显示的一些数值
  7. 词典名(缩写):XSDXH --> 用于CSS内限定用的名称等
  8. 一般图片上距(px):75 --> 用于小屏幕中单栏显示时更加紧凑显示图片,隐藏不必要的空白内容
    (2) 导入词条+坐标的数据:

    (3) 按照顺序于单元格右下角出现+时进行双击填充序列:[1]→[2]→……[9]→……[12]→[13]→[14]
    其中:
    (A) [9]选中W2单元格,右键,【刷新】
    (B) [13](T列)为词条及其文本内容,[14](V列)为页码及其文本内容,请将这两列数据【复制】到新建文本文件,保存为【UTF-8无签名BOM】的格式
    © 请核对A12单元格(页数差: -X)。如果某页面无任何词条,则在[14]中不会出现,需要手动添加页码及其文本内容。

    (4) EXCEL里的 [2栏CSS] 表里,输入部分页面的上下空白Y值,复制内容到CSS保存
    (5) EXCEL里的 [附录索引] 表里,可以得到前言附录等页面的索引文本
    (6) 按照替换说明,使用EmEditor和UltraEdit进行文本的替换(普通/正则)
    (7) 使用MdxBuilder转换成 MDX/MDD

    附1:按照本模板制作的图片词典
  9. 20160722更新《意汉词典》(绿砖) 全索引 精确定位 图片版【意大利语】
    https://www.pdawiki.com/forum/thread-17116-1-1.html
  10. 现代意大利语词典 意汉双解版
    https://www.pdawiki.com/forum/thread-17729-1-1.html
  11. 20160810《新西汉词典》全索引 精确定位 图片版【西班牙语】
    https://www.pdawiki.com/forum/thread-17911-1-1.html
  12. 20160825《葡汉词典》全索引 精确定位 自适应 图片版【葡萄牙语】
    https://www.pdawiki.com/forum/thread-18033-1-1.html
  13. 20160825《拉鲁斯法汉双解词典》全索引 精确定位 自适应 图片版【法语】
    https://www.pdawiki.com/forum/thread-18035-1-1.html
  14. 20160902更新《新时代西汉大词典》20页全索引 精确定位 图片版【西班牙语】
    https://www.pdawiki.com/forum/thread-18072-1-1.html

其中6为使用0902模板制作,各个软件均完美支持!

附2:相关帖子

  1. 图片版词典,词头区域切片OCR,用FineReader识别
    https://www.pdawiki.com/forum/thread-18046-1-1.html
  2. 安卓版 Goldendict 支持 .mdx .mdd 的方法 (经验) --> 让GoldenDict安卓版加载图片版词典的方法
    https://www.pdawiki.com/forum/thread-13437-1-1.html
  3. 【20160902更新】全索引_精确定位_图片版_词典 工具+教程[2014.10.02] --> 记录了Excel模板的更新记录和图片版词典的制作想法
    https://www.pdawiki.com/forum/thread-13169-1-1.html
  4. 20160710更新( 全部)_制作图片字典工具的试作 --> vbnet 的工具
    https://www.pdawiki.com/forum/thread-16663-1-1.html
  5. 图片版词典制作软件 2016年8月31日 --> 孤影 的工具
    https://www.pdawiki.com/forum/thread-17495-1-1.html

chigre3.20161116_【教程】全索引 精确定位 图片版 词典的制作. https://www.pdawiki.com/forum/thread-18134-1-1.html, 2016-9-3/2016-12-01, 54F

◆ 图片篇

图片规整化

旧方案:
(1) Photoshop 一次自动加载50张图片到单个文件。 ◇ 一次性导入多张图片到PS
:【文件】 - -> 【脚本】 - -> 【将文件载入堆栈】 - -> 浏览选择文件(比如说 50 个)
chigre3.一次性导入多张词典扫描图到单个PS文件. https://www.pdawiki.com/forum/thread-19231-1-1.html, 2016-11-30/2016-12-1, 7F
(2) Photoshop 里对50张图片进行位置微移并导出所有图层
(3) BatchRename 批量重命名
chigre3.【03.13完成】新世纪英汉大词典 词条切图版 全索引. https://www.pdawiki.com/forum/thread-19228-1-1.html, 2016-11-29/2017-12-4, 112F

新方案:
之前Photoshop建立模板手工调整图片位置的方法比较笨,耗时。
下面是使用 ComicEnhancerPro 自动纠斜和统一调整版面位置的方法,其优点是自动高效。处理完之后筛选出特殊页面,再次进行设置批量处理(一般为字母起始页 or 字母结束页)。以 英語搭配大词典(2004) 玊文昌主编 的图片为例:

  1. 建立【奇数页文件夹】、【偶数页文件夹】,将正文图片放入其中(奇偶页侧边空白长度有差异,可能有字母索引和批注)
  2. 自动裁边,自动纠斜_横排
  3. 选择框调整,自动得到版心像素大小,设置页面大小和页边距。
    奇数页:
    左侧能准确地自动取边,右侧不定,因此内容框设置 对齐方式为【水平靠左 垂直靠下】
    偶数页:
    右侧能准确地自动取边,左侧不定,因此内容框设置 对齐方式为【水平靠右 垂直靠下】
    字母结束页(特殊页面):
    水平(根据奇偶页设置,垂直靠上)
    利用ComicEnhancerPro批量处理转换

chigre3.【图片版词典】ComicEnhancerPro 自动裁边设置. https://www.pdawiki.com/forum/thread-22291-1-1.html, 2017-12-6/2017-12-6, 12F

图片规整化-确定切图区域左右边界,删除不必要的索引提示区

ComicEnhancerPro切边以后再切边(勾选去除边缘黑色)。
如果是黑白图,那就选择【纯黑白】PNG,可大幅减少图片占用存储大小。
chigre3.[切图版词典制作]检查切图区域的上下边界. https://www.pdawiki.com/forum/thread-32152-1-1.html, 2018-12-19/2018-12-19, 12F
采用ComicEnhancer Pro:
1、左、右分别切,因为参数不同
2、切多次:第一次,先调整参数,让大多数切除是OK的;第二次,再次调整参数,对切除不满意的进行再次切除;依此类推,基本上三次就很完美了。
VimVim.如何批量清除扫描字典图片中的ABCD索引提示区. https://www.pdawiki.com/forum/thread-32876-1-1.html, 2019-1-30/2019-1-30 , 8F

◇ 图片规整化-处理插图
抠插图:
以一个页面为例,任意多边形插图剪裁出,对应相应的词条:

  1. 在软件里画多边形:
  2. 保存得到相应的点坐标:
  3. 替换2的文本得到BAT批处理切图:
    chigre3.[18.09.30制作中]DK·牛津英漢双解大詞典. https://www.pdawiki.com/forum/thread-29943-1-1.html, 2018-7-31/20180-10-1, 19F

抠出的彩色插图后续处理(案例):
目标:①将小插图扩大宽度至和词条切图相同宽度 (在词典软件中显示才会和文字看起来比例正常); ②全部插图去透明化.
DK牛津插图本- -> 抠出2717幅大小不一的插图 (如 148x1168, 2200x2900)- -> 批处理: 将width小于670px的(文本区域切图的固定单栏宽度)进行右侧增加空白处理 + 所有图片背景色白色(抠图时产生的透明色去除)

(1) 按宽度排序处理, 小于670px剪切到新建的文件夹, cmd里cd到相应文件夹, 输入命令得到这些图片的 文件名+宽度 信息
https://superuser.com/questions/...inted-to-a-txt-file
identify -format “%f %w\r” *.png > info.txt

(2) 在EXCEL计算一下这些插图右侧需要增加的空白宽度, 复制为文本处理成.BAT批处理文件
(3) 连同其他图片全部一起, 进行去透明化处理 (-background white -alpha remove)
PS. 如果是类似蓝登书屋的双解里的插图全是黑白的, 那么上面的背景色操作全部都是透明化处理!
chigre3.[切图版词典制作]抠出的彩色插图后续处理. https://www.pdawiki.com/forum/thread-31005-1-1.html, 2018-10-2/2018-10-2,3F

图片规整化-检查插图表格等区域

使用ComicEnhancerPro的自动切边进行对齐的图片,通常会出现个别页面的切图区域边界的不一致性(比如字母起始与结束页,跨栏的大插图页)。于是在Picture Capture中新增加了导出所有页面的指定Y坐标值区域的空白像素比例计算,通过处理得到所有页面的上下边界Y值。画红线,人工核查。
步骤:
○ 合并.ppp插图坐标信息
○ 文本处理成特定格式(参见原帖)
○ 仔细查阅是否有错误,避免在最终全部词条的切图后返工
chigre3.[切图版词典制作]检查切图区域的上下边界. https://www.pdawiki.com/forum/thread-32152-1-1.html, 2018-12-19/2018-12-19, 12F

图片规整化-优化带底色的图片
  1. 将原始图片进行2次纯黑白转换 (老马的 ComicEnhancer Pro):
    (1) 默认参数 (带底色的区域文字基本难以识别)
    (2) 稍微调整曲线, 使得底色区域的文字正常化显示 (当然这个时候其他区域就不那么好了)
  2. 将底色区域标记出来 (自制的画线软件), 在(2)里抠图, 粘贴到(1) (使用Imagemagick命令行)
    convert 0076.png 0076_P_03.png -geometry +78+5127 -composite 0076.png
    convert 0076.png 0076_P_02.png -geometry +78+2567 -composite 0076.png
    convert 0076.png 0076_P_01.png -geometry +82+1166 -composite 0076.png

    chigre3.[切图版词典制作]纯黑白下带底色区域文字不清的变通解决. https://www.pdawiki.com/forum/thread-32353-1-1.html, 2019-1-3/2019-1-3, 7F
图片规整化-切图后除去多余空白

案例:DK牛津插图本词典

  • -> 抠出插图后的整页
  • -> 批处理得到的切图: 宽度一致, 很多切图上下大量空白 (原本的插图区域造成的)
  • -> 有没有一种命令行批处理的方法将所有切图进行一次切除上下多余空白的操作??
    查找关键词: imagemagick crop border one side 等
    经过相关搜索和测试, 暂用如下的命令
    作用:
    (1) CMD目录循环所有的.png切图, 从中间过程 (纯黑白处理/模糊/切边) 得到切边后的画板参数, 调用它对原始图片进行固定大小参数的切图(-crop)操作
    (2) 将中间过程得到的画板参数保存成与图片同名的文本, 以备后用。
    scan tailor ,但不是命令列。

imagemagick 的指令可以参考下面的网站,不过这我没试用。
http://www.fmwconcepts.com/imagemagick/smartcrop/index.php
1. convert test.png -gravity South -background red -splice 0x1 -background green -splice 0x1 -trim +repage-chop0x1
test_trim_north.png
2. convert test_trim_north.png -background red -splice 0x1 -background green -splice 0x1 -trim +repage -chop0x1
test_trim_TOP_BOTTOM.png
3. del test_trim_north.png

chigre3.[切图版词典制作]切图后除去多余空白. https://www.pdawiki.com/forum/thread-31004-1-1.html, 2018-10-2/2018-10-2, 2F

◆ 索引篇

◇ 获取正文页面的首末单词索引

拓展
Oeasy.[设想]一种新的词典格式[专为图片版词典设计]. https://www.pdawiki.com/forum/thread-22035-1-1.html, 2017-11-5/2017-11-5, 9F
chigre3的楼层:
chigre3. https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=22035&page=1#pid520858, 2017-11-14/2017-11-14, 1F-3F
Q&A
Q: 关于第二步,可否给个案例?
A: 用别的软件也可,比如xnview。
chigre3.获取正文页面的首末单词索引. https://www.pdawiki.com/forum/thread-29187-1-1.html, 2018-6-30/2018-6-30, 7F

手工录入图片词典页末单词

相关主题:
【自动+手动修改】获取正文页面的首末单词索引
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=29187
使用软件:ComicsViewer, EmEditor使用快捷键翻页
chigre3.[切图版词典制作]手工录入图片词典页末单词. https://www.pdawiki.com/forum/thread-31027-1-1.html, 2018-10-3/2018-10-3, 3F

◆ 软件篇

◇ Picture Capture
个人需要做的事情仅仅为:

  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
  2. 使用本软件进行:
    (1) 全部页面的 自动画线- -> 自动OCR
    (2) 逐页校对画线和文本(可删可增)
    (3)
    A.合并.pdic (词条+坐标信息) - -> Excel模板 - -> 文本替换 - -> 精确高亮定位 整页版 图片词典
    B.导出单词整体切图 - -> 合并.PWWords (词条+图片名称) - -> 文本替代 - -> 切图版 图片词典

chigre3.20181130更新_自动画线+OCR+切图+校对软件. https://www.pdawiki.com/forum/thread-19040-1-1.html, 2016-11-15/2018-11-30, 52F

◇ Picture Capture 简易操作步骤
自动画线+OCR+校对+切片
(1) 打开图片文件夹, 选中图片, 设置参数(记得保存) + 画线
(2) OCR + 校对
(3) 词条整体切图(后续可以png优化, 减小体积)
(4) 合并.pwwords文本, 替换处理得到需要的切图版文本, 转换得到 mdx/ mdd 或者 dsl.dz/ dsl.files.zip
若是没有现成的完整的词条索引 - -> OCR (先测试多页, 找到合适的文本替换条件) + 人工校对
Q&A
Q: 如何做到ocr后词头单独罗列,不含音标、词性?
A: 请查看 _replace.txt 以及说明文档。
Q: 同样的参数下,就这一页最后一个单词越出边界,校对提示内存不足,什么问题造成的?
A: 截取图片的范围超过图片本身之外 应该是截图高度超出图片外面了。截图高度 ( 19+2+2 ) * 缩放倍率,这个数值加上本身的画线位置可能会到达图片底线外部。最多你把最后一个单词的画线快捷键删除了,然后重新画一条输入单词后保存就可以了。
chigre3.【03.13完成】新世纪英汉大词典 词条切图版 全索引. https://www.pdawiki.com/forum/thread-19228-1-1.html, 2016-11-29/2017-12-4, 112F

vbnet的工具

工具链接:vbnet.(20200512彩色版Release)_制作图片字典工具的试作. https://www.pdawiki.com/forum/thread-16663-1-1.html, 2016-5-9/2020-5-12, 601F

孤影的工具

孤影.图片版词典制作软件 2016年8月31日. https://www.pdawiki.com/forum/thread-17495-1-1.html, 2016-7-15, 2016-9-2, 16F
相关案例
0. 对所有的词典图片进行统一的精细处理

  1. 使用本论坛 @ 孤影 的工具软件,配合按键精灵脚本,对图片自动画线,获取所有词头的坐标
  2. 使用OCR自动切片导出,得到所有图片的所有词头的切片
  3. 新建一个图片(大小同切片),添加文字内容为“aaaaaaaaaaa”(或者类似,用作标识)
  4. CMD获取所有切片名称,Excel里添加列,标识每页的开始标识
  5. 使用ImageMagick,在CMD里使用命令 convert -append 0.png 0001.png000.png 0.png 0001.png001.png 0.png 0001.png002.png…
    _0001.png 得到最终的合并切片的总体图片
  6. 使用FineReader打开这些合并了的切片总体图片,进行文字区域设置,识别,保存为txt
  7. 正则处理txt(标识为aaaaaaaaaaa)。。。
  8. 导入回到步骤①的词头,在高亮匹配提示下,继续进行人工核对

chigre3.图片版词典,词头区域切片OCR,用FineReader识别. https://www.pdawiki.com/forum/thread-18046-1-1.html, 2016-8-26/2016-8-26, 7F

图片处理利器

**◇ **

  1. ImageMagick: https://www.imagemagick.org/script/index.php
  2. ComicEnhancerPro
    图片词典PNG格式瘦身优化:
  3. pngquant: https://pngquant.org/
    pngquant is a command-line utility and a library for lossy compression of PNG images.
    The conversion reduces file sizes significantly (often as much as 70%) and preserves full alphatransparency.
    Generated images are compatible with all modern web browsers, and have better fallback in IE6 than 24-bitPNGs.
  4. optipng: http://optipng.sourceforge.net/
    chigre3.图片处理利器. https://www.pdawiki.com/forum/thread-19157-1-1.html, 2016-11-22/2016-11-22,1F

◆ 校对篇

校对注意事项

软件使用时需设置参数。参数的计算方法:在Excel单元格 D2 输入软件加载图片后左上角的【缩比】数值即可。
chigre3.【05.03完成】ENCARTA英汉双解大词典 词条切图版. https://www.pdawiki.com/forum/thread-20122-1-1.html, 2017-3-10/2017-05-04, 58F

◇ 校对流程
    ○ 打开软件Picture_Capture_Chigre.exe
    ○ 【打开】图片所在文件夹
    ○ 【参数】- -> 【载入参数】
    ○ 点击页面【××××.tif】
    ○ 【校对】


Tips
校对词头拼写:准备一份较全的单词列表,使用vlookup进行匹配。
整页词典判断词头的大概位置:用每頁單字的順序號去除以那一頁的單字總數(0%-100%), 50% 為大概的另一欄, 大部份右欄的第一個單字大概會在 40%~~60%左右。
最新方案可见: 匿名.【圖片辭典】譯文版牛津英漢雙解詞典 張柏然 2011. https://www.pdawiki.com/forum/thread-40863-1-1.html, 2020-6-29/2020-7-17, 173F

chigre3.[2020.05.14更新]遠東英漢大辭典 全索引詞頭. https://www.pdawiki.com/forum/thread-35976-1-1.html, 2019-09-23/2020-5-14, 97F

利用 EXCEL 词条排序校对【切图版 图片词典】

相关帖子:
20170313更新_自动画线+OCR+切图+校对 软件
https://www.pdawiki.com/forum/fo … &fromuid=174481
画线OCR一次校对之后,使用 EXCEL 进行辅助的二次校对,可快速找到第一次校对时那些疏漏之处
(一般是淡绿底色提示正确,a/o、b/h 等近似字母不同)
实例演示:新西汉词典 (1982年版) 切图版制作
https://www.pdawiki.com/forum/fo … &fromuid=174481

  1. 特殊字符提取后,对词条进行替换。
    注意:EXCEL里字符排序和词条条目字母顺序可能不一致,
    比如这本词典里 ll, ch 都是作为西语里单独的复合字母,分别在 l?, c?之后,ñ在n?之后!
    所以可以利用添加数字来辅助正确排序!
  2. 复制相应的内容到EXCEL里,录入公式,排序
  3. 找到存疑的词条页面和所在位置,修正后保存PDIC
  4. 在EXCEL里同样修正,重新排序,双击【简化排序】自动产生新序号,【相同?】判断继续下一个查找

chigre3.利用 EXCEL 词条排序校对【切图版 图片词典】. https://www.pdawiki.com/forum/thread-21258-1-1.html, 2017-7-24/2017-7-24, 3F

高亮词头所在行

操作目标是将原始图片进行半透明高亮着色相关区域, 方便浏览检查:

  1. 将.pdic(词条信息)合并后的文本进行处理后, 得到批处理.BAT, 将所有词条行黄色半透明高亮【命令行格式如下】
  2. 将.ppp(插图信息)合并后的文本进行处理后, 得到批处理.BAT, 将所有的插图红色半透明高亮【命令行格式如下】
  3. 在ComicsViewer里全宽显示处理后的图片, 键盘上下键和回车键进行滚动+换页的操作 - -> 仔细进行最后的缺漏检查

chigre3.词头行+插图 高亮 -> ; 检查是否有缺漏. https://www.pdawiki.com/forum/thread-30979-1-1.html, 2018-9-30/2018-9-30, 3F

◆ IDEA

◇ 切图的全文检索
想要实现的效果:
类似双层PDF,切图+对应的文本(尽可能一致),文本可查。
例子:朗文英语写作活用词典有完整的、文本结构清晰的英英版,文本可以对应到切图版的具体词条,可以将TEXT隐藏,但是可以被当前页内检索+全文检索。
比如 全文检索 controversy ,可以显示 focus on 词条包含这个“controversy”
然后 + 一个【英英/双解】的按钮,隐藏的可检索的文字层就直接:隐藏图片,显示文字,方便一些点击操作!
chigre3.【切图版的进一步】切图的全文检索. https://www.pdawiki.com/forum/thread-31453-1-1.html, 2018-11-1/2018-11-1,8F

手机端自动复制文本

非ROOT手机,不使用“按键精灵”

  1. Universal Copy: https://play.google.com/store/apps/details?id=com.camel.corp.universalcopy
    回帖中反映:通用复制有时候抓屏幕的渲染会掉板式,揉成一团,无法区分。应该是行尾的识别有问题
  2. Clipboard Manager: https://play.google.com/store/apps/details?id=devdnua.clipboard.pro
  3. Home Button - Floating: https://play.google.com/store/apps/details?id=nu.home.float
  4. 自动点击器: https://play.google.com/store/apps/details?id=com.autoclicker.clicker
    设置一下。
  5. 安装 安卓模拟器(例如 雷电模拟器),使用按键精灵进行类似的操作。
    用途:按顺序取得某些APP的全部词条(甚至释义)
    海词出的APP的小技巧:
    使用上面的自动点击APP,设定6~7秒单击下一个单词,
    海词APP会把释义内容存储本地的,下一次查询同词条会直接显示本地内容(离线也可以)
    记得一定时间后把搜索记录清空,不然APP每次搜索都会卡死。
    chigre3.安卓自动点击 多点 顺序复制文本. https://www.pdawiki.com/forum/thread-31876-1-1.html, 2018-11-28/2018-11-28,7F
Update #1 9 July 2020
@A*lin

◆ 练习

◇ 小型词典切图练习——《时代汉英词典》

Update #2 21 July 2020
@A*lin

◇ 大型词典切图练习——《新时代英汉大词典》
① 图片预处理
用ComicEnhancerPro分奇偶页反复多次裁去图片左右两侧的字母索引。经测试,《新时代英汉大词典》在左右边距设置为50,水平居中,垂直靠上,内容大于版心时缩图,固定宽高为 3900×5550 时效果最佳,能使26个带字母的特殊页与其他页面左右边距基本一致,增加画线精准度。经过处理后几乎不再需要用photoshop模板进行校正,检查画线的过程中再调整。
② 画线并检查
新建工作文件夹,文件夹下含名为QT的子文件夹,QT文件夹下含PSW和PWW两个文件夹。文件夹下还包含名为_SpecialPages.txt的文件用于存放特殊页面的空白区域坐标,可在检查画线或者画出插图区域时填入。
Picture Capture中设置好参数(注意调整单栏宽距和两栏中隔,直到切图或校对时不会报错)。多测试几页,得到一个合理的参数再勾选手动模式,点击智能画线。
利用chigre3前辈提供的索引进行排查后发现缺失两条画线,按索引填充词头后记得回头检查这两处缺漏。
③ 智能OCR
从指定链接中下载所需OCR语言包放入tessdata文件夹。依照词头特征优化_Replace.txt后再进行自动OCR。由于《新时代英汉大词典》已有较精确的索引,可以直接进入校对模式。
④ 校对词头
将前辈提供的索引处理成固定格式的wordslist.txt并将页码数据填入page_words.txt,将txt放入工作文件夹。wordslist.txt中以’开头的词目,软件无法正常读取,可以先替换为其他字符。在Picture Capture校对窗口的顶端勾选【num 1】右侧上下两个框,用按键精灵获取【下一页】的坐标生成左键单击脚本,这时若当前页画线数与索引一致,会自动填充词头。
自动填充完整后,导出所有的pdic信息合成txt文档,正则搜索【^#】,找出没有成功填充的页面。这些页面未能自动填充,可能是因为图片不够规整,也可能是受到插图的影响,还有可能是索引不完整(前辈提供的索引缺失两个单词)。
校对过程中如果改动了画线,记得刷新页面以获取正确的序号!否则在整页填充词条时会因编号导致错位。
自动填词并根据索引手动补缺后,仍有画线缺失,可以确定这是画线与索引兼缺的情况。可以根据前辈的描述进行索引双向校对。缺失的单词可能因与现索引同形,或者因源索引与图片中的词目非一一对应等原因无法找出,可能需要进行手工检查。《新时代英汉大词典》在倒着检查了差不多300页的时候补上了2处画线,一个受符号’影响,一个是因为插图而未能正确画线。
画线与校对工作完成后记得备份pdic数据,因为接下来画出插图区域后将在此基础上产生画线数据,会影响索引序号从而对插图信息的填写以及后期切片造成影响。
⑤ 处理插图
勾选画图模式,单击鼠标左键画出插图区域,单击鼠标右键单击确定区域,填入图片信息,便于与切片数据结合,可以按照以下格式:
0003|P_02|1|0003|006|abacus
①当前页|②当前页的第2张插图|③未知|④插图所对应词目所在的实际页数(当前页、上一页或下一页)|⑤插图所对应的词目右侧编号|⑥对应词目。
其中的⑤在两种情形下容易出错:其一是在改动了画线但未刷新页面时,其二是当该插图与对应的词目不在同一页而词目所在页已经有插图数据时(序号已经被插图数据影响)。①④⑤是重要数据,用于生成抠图命令以及以白色覆盖整页版当中的插图。每页抠图后记得手动保存ppp数据。整合ppp数据后,最好能在Excel中利用切图数据校对一遍,着重检查④⑤。
取得正确的ppp数据后开始抠图,抠图命令可参考: https://cutt.ly/Mabpeuo
在扣插图的过程中可以顺便填写_SpecialPages.txt,检查画线边界。抠图完成后,命令行获取插图宽度信息,在Excel中计算后再统一加宽固宽。
⑥ 切图
将最终优化好的图片(无插图的整页图片)及先前导出的不含插图信息的pdic放入工作文件夹,点击词条整体切图。在PWW文件夹中打开图片,观察换栏处和换页处是否有误,无误即可勾选自动切图。
也可以导出切图数据再用imagemagick切图。导出数据后可在Excel中微调切片高度和宽度。《新时代英汉大词典》经测试后需要增加高度,否则最后一行内容带g,y,j等字母的切图会不完整。注意调整增加高度后超过整页高度(5550)的数据。利用更改后的坐标信息生成切图命令行进行切图。
⑦ 优化切片
切片可能边缘带黑色区域,可以利用 ComicEnhancerPro 【色彩】当中的【去除与边缘接触的黑色区域】进行处理。个别图片有可能会有误伤,因此在切片之前,有必要增加图片高度(小于行距)。也可以利用【切边】进行处理,但效果不如【色彩】。利用切边处理黑区最好不要勾选【不计黑边】。当切片只有一行内容,没有其他行进行辅助判断边缘的情况下,同时勾选【不计黑边】和【忽略斑点直径】可能导致切片内容不完整,特别是只有单行内容且行末字母为带点且倾斜的j、i等情况。
【色彩】里的【边缘去毛刺】在处理英文字母时效果不够理想,会改变字形,导致字母粘连。设置【去斑直径】容易误伤字母的小圆点和其他字迹。
切片可能因抠图产生多余空白,可以在黑白二值化再进行切除空白,能最大限度切除空白。《新时代英汉大词典》在切除空白后,统一设定行距为6px。一词一片(一个词目对应一张切片)时,切片的上下边距均为6px;一词多片时,首张切片上边距以及末尾切片下边距均为6px,其余均为3px。
⑧ 生成mdx
双栏图片的切片名分为四类:
(0-1):上页末词目切片,无词目页面第一栏切片
(1):本页面词目第一张切片
(2):第一栏最后一个词目的第二张切片(换栏处的切片)
(0-2):无词目页面第二栏的切片
按词目整合_file_log.txt里的切片信息与插图。注意有的词目(2)在(1)前,需要自行调整。
将pdic数据分列后填入Excel模板,按照相关说明文件进行批处理,补入切片和插图链接。同页面的同形异义词目保留一个,合并切片与插图;另页重复的词目均要保留,合并词目而不合并切片与插图;大小写不同的词目可以合并。

◇ 所遇问题及解决方案、注意事项
• 点击OCR时报错
QT文件夹需要预先创建,OCR后会在其下生成后缀为OCRed的文件用于存放OCR数据。
• 点击校对时报错
主要需调整两栏中隔和单栏宽距这两个参数。
• 点击切图时报错
可能受_SpecialPages.txt的影响。
• 建议在词条校对完毕后再抠图
插图信息需要输入词头所对应的序号,而输入的序号不会随着画线的更改自动变化,切记点击页面刷新序号。在词条校对完毕后或者在更正画线并刷新图片后再抠图为妥。
• 画线过程中请勿开启画图模式
勾选画图模式后,画线信息无法正常自动保存。
• 及时手动保存
做了修改记得手动点保存,不要太依赖自动保存功能,特别是扣插图的时候。
• 自动切图前进行检查
自动切图前先切几页观察是否有误,可能会出现衔接处内容丢失,第二栏数据整体切片多余的情况。若 Picture Capture 切的图无大问题可直接使用该软件切图,需要微调则导出切图数据用imagemagick切图。

Update #3 8 August 2020
@A*lin

更新:
新增《新时代英汉大词典》踩坑记录

2020/08/14

8 Likes

你真是用心。收集整理要花很多时间。虽然不用图片版词典,但有这么好的资料拿来学习也非常好。喜欢图片版的朋友在得不到想要的词典情况下,可以自己试着做,毕竟求人不如求己吗。

学习的时间不能省,过程中多少能学到点新东西。切图词典还是有它的价值的,相信未来的使用体验会越来越好。

关键问题: chigre的切图软件不开源,不开放下载,无法升级,遇到问题只能傻眼,制作出的成品别人无法二次修改利用。

学了,放弃了。

2 Likes

chigre 在一篇5月份结帖的帖子里分享过软件、Excel模板和操作视频。坛友 @dqg 说会操作,我正等待TA给我发软件,到手再好好请教(打扰)TA :doge:

已发,请查收~

我刚好在纠正帖子里错别字,哈哈。多谢!

你这出力的劲儿还是很值得赞许的,所以也给你添块砖吧。

讲图片切分成文字块,除了图片数据分析(每个像素点的颜色值),然后就是OCR的方法了。chigre其实切图工具,核心也就是利用了tesseract进行OCR的同时输出了文字块的坐标,然后基于坐标进行图片切分。

有坐标,一切都好说。

看Arlin这个认真的劲儿,可以考虑考虑研究研究tesseract哈,然后就可以不用借助chigre的工具了。(个人感觉,chigre的工具只是为了自己的需求而开发的,软件设计上并不算很好,所以除了他自己,别人用起来可能真的不那么顺手。如果有长期研究图片词典的想法,个人觉得还不如取法乎上,从开源的tesseract入手,做一个比chigre工具好很多的也不是很难的事情。)

另外,个人观点,图片切分成文字块,其实并不是什么很难的数据分析算法,目前还没有人做出好的开放工具,其实是价值观问题。词典这个领域,法律正义上过不去,所以大部分能够做的人也避讳弄。因为需要投入不少时间和精力,但又并不能有任何回报,而且一旦基于有版权的词典数据赚钱了,也就板上钉钉违法了。

Tesseract见 https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html TSV output (Currently available in 3.05-dev in master branch on github) 部分。

另外,图片处理见Python Pillow相关文档。

2 Likes

Chigre 的作品確實精品,只是對於一般人來說是比較難承受的,除了技術上複雜度高外加校對…能有幾個人屁股坐的住的…哈!哈哈哈!,是真的很辛苦的,長此以往,眼睛也會受不了,把辭典當成藝術品的搞法要付出的代價是很高的…

不难,我已经学会了。
看完文档再实践,遇到问题google,成功get新技能。

超过1000页的词典一个人做会很费力,感兴趣的小伙伴合作为佳。
比如最近的《新时代英汉大词典》,有词头索引不用ocr,画完线就可以开始校对了,速度会很快。

老兄,那可是一個一字的點,眼睛也是會花掉,體力哪受得了!哈!哈哈哈!

24日晚挂机自动处理图片。
25日上午自动画线。
25日下午开始填词。
26日中午按键精灵填词结束。

辛苦了!因為我也弄過200頁,箇中滋味只有親自體驗才會理解,這樣作一本辭典是真的太辛苦了!好辭典那麼多,要是每本都如此的搞法,不要說體力吃不消,身體搞壞也是得不嚐失,保重,保重

填词,楼主指的是自己输入还是校对?没看懂单词列右边的字母是干啥的。

点击左侧单词,填入右侧对应图片下方的文本框中。

看不大懂你所謂的按鍵精靈填詞,這如何搞呢?可否明示一下

有了精确的索引之后,软件里勾选上填充词条右侧两个框,按键精灵设置左键单击下一页按钮。
等结束了再手动解决没有填充成功的。

哇!,老兄,厲害了!都沒想過可以這么搞法,佩服,佩服,讚!

咦,楼主最近在弄张柏然的 新时代英汉大词典吗?进度如何了呢?

crop进行中……