《史氏汉英翻译大词典》图片词典制作记录帖子--完成版已发布

W2K · 2020 年8 月 21 日 12:02

有这个想法是 @Vim 在掌上百科发的新时代开始的。
软件是百科前一阵子 @chigre 本人发出的，不会用。
@chigre 做过的词典大家都看过就不介绍了，好多人现在还在找他切的词典。（有的玩多谢百科的 @chigre ）

下面记录下过程，和遇到的问题。

问题最多的是经常是 忽略继续or退出 也就是说使用不对。

目前还真没碰到是软件的问题，都是设置参数或文件不规范造成的。

数值不要照抄，都是参考，因为屏幕分辨率不一样所填入的参数也不一样。起始软件里有说明，都写得很细了，不懂还有 @ Arlin帮忙，剩下的也就是动手了。（对了，多说一句，要是 @Vim 的软件和使用方法先发出来我会先用他的方法做图片词典，因为没有头绪弄图片词典不知无从下手）

进度：
（1）图完成
（2）词头是@ Arlin帮忙做完了传给我的。（page_words，wordslist）
（3）划线填词完成
（4）从PDIC导出切图信息调整切词坐标完成
（5）在excel里改完数值，另存成.bat文件切图（这一步不是必须的，根据词典来，改完的安装ImageMagick Display，把。bat文件放到图片文件夹双击他就自己干活了）完成
（6）合并.pdic数据倒进模板copy出文本，替换完成
（7）合并.PWWords文件转txt完成，切词的txt替换，怎么替换不会正看着弄呢算完还是不算完呢
（8）解决问题中解决完成
（9）查找疏漏，总结。
(10)此图片词典制作方法成熟，喜欢切图词典的都可以上手制作。

以下问题都是 @ Arlin帮忙解决的，在此感谢！

1）准备图略过，相关的图片词典很多看看就知道了。

2）上来划线就频频出问题，解决方法是：单栏宽距，间隔数值的搭配，间隔数值比实际大些，单栏宽距比实际小些。

3）图片名先不要加，不然校对时无法识别页码，按下一页不跳页。

4）从PDIC导出切图信息失败，_SpecialPages里面手敲输入不规范。按照_SpecialPages示例填写 解决。

下面的可能要返工。
词头y整体要加55px，@Arlin 告诉我测试得数值*缩约比（55*缩约比）。Excel不会，百度完了怎么弄回来不会。这时呼 @dqg，解决了（EmEditor里CSV选项里点制表符，剩下的就和用Excel一样操作了，完事了再点标准模式还原初始状态，另存为.bat格式文件）。双击没变化，找帖子无解。看chigre软件使用说明，安装ImageMagick Display开切，结果是整体全往上提了相应的数值，显然不对。这时观察切出的图片单更改第二排数值还是不对，相应的第四排也得更改才是我要的切图（二排数值减多少四排数值就加多少）。测试还是不对，就改的只有词头图片的数值，其它切图保持不变才是对的，不是每张切图都要改。观察图片名字找出词头命名特点带（1）是词头文件名，剪切出去改完粘贴回来，排序。这里和软件说明不一样，@Arlin 给的：查找：^(.?)\t(.?)\t(.?)\t(.?)\t(.?)\t(.?)$ 替换：magick \1 -crop \5x\6+\3+\4 -transparent white \2 。存成.bat文件放到图片文件夹里双击。

要往上提高切图位置

导出的_file_log.txt打开处理要改的数值

改完正则替换后保存.bat文件

要是熟练的话会很快，excel加减再粘贴回来3-5分钟可能都用不了，我却耗了一晚上。
Picture_Capture_Chigre软件导出所有图片切图信息失败找原因找了一个半小时。

导入数据至模板得文本：

打开CMD命令行，合并所有的.pdic。
20161017_图片版词典万能模板文件夹里有说明。我只是复制出来了，还没有替换。

盘符：
cd 文件夹名
copy *.pdic all.txt

打开图片版词典万能模板.excel。导入合并的数据all.txt。

当单元格右下角出现＋时双击

1）填充序列：［１］→［２］→……［９］→……［１２］→［１３］→［１４］

这里是刷新：［９］选中W2单元格→【右键】→【刷新】

2）［１３］，［１４］两列数据【复制】到新建文本文件，保存格式为“UTF-8无签名。

感觉在学excel表格软件，新东西上手真不快，和词典无关。最后操作了下实际时间一根烟都用不了。

又发现新问题，还是在excel里的，核对A12单元格（页数差: -X）。如果某页面无任何词条，则在［１４］中不会出现，需要手动添加页码及其文本内容。要费点时间了空白页问题解决。

也许我excel用得不对，总之复制过去的内容不对，但A列是无词条页面所缺的页码。复制出来改造好后复制到14下面（13，14已万能模板_替换步骤替换完），整页版的完成（压mdx前词典名统一替换下字母缩写）。实验品初步做出来了

无词条页面所缺的页码

粗糙版完成，切词有问题，顺序不对，看不懂。正了解中。已解决

@Arlin
Q:如何按词目整合切片？ （ dqg）
A :我的做法是，将页码结合切片类型数字作为排序依据按照数字升序排序，除(1)外的并入(1),即可与词目一一对应。无插图、重复词目不合并的情况下，双栏词典切片顺序为：
（1）（0-1）
（1）（0-1）（0-2）
（1）（2）
这些东西是神马玩意呢，再看看想想吧。

原GIF挺清晰的，不知道传到这咋就这样了。

Video_2020-08-23_170849

看图吧，但雏形已经全在了，整页版无问题。单双栏大小屏切换无问题。

切词的顺序无问题（如何按词目整合切片？）

最后问题还是出在切词的_MDX.txt里。
最后的问题我又按说明里替换了下切词的_MDX.txt。问题依旧在。

GAME OVER

001

@Arlin 告诉按模板正则替换（切词txt和复制出来的13去重词头，内容合并就完事了），太晚了，明后天有时间替换完，就差最后还有1/3没替换完，怪不得给我的模板是一直行的，替换方便，模板断行的看着方便，直行的用着方便。

2020/08/20下午开始PDF导出图，到今早上把昨晚剩余的替换完，调整下多义词。到今天早上也就是25号早上基本完成。

词头（1985个，其中含14个多义重复的）
本贴为练习帖子，熟悉全部流程。目前发现问题是首页多义字“挨”切词再切换整页高亮页面不灵，漏划线“编”。这个切图软件使用还未试过抠图这个功能，有时间周末看看怎么使用。其余的如何使用基本都走了遍。挺好用的制作图片词典工具。

漏划线的

其它的使用无问题（只指制作出来使用上）。

本实验制作贴到此结束，感谢过程中解惑，答疑的论坛小伙伴们。

发布初试版，已知问题：
1）由于手摘多义词“挨”字有些问题
2）就…而言（语）这种词头是作为@@@LINK处理（未处理，@Arlin建议，我想了想才明白啥意思）
3）漏划线字”编“等。因为没有进excel表格校对。

以上问题周末有时间再完善。

纠正制作中问题

编 0039
当中 0143
挡住 0143
发表 0188
发生 0196
掠夺 0547
*怕 0627
要紧 1067
要命 1067
要是 1067

漏划线词头，带星号的是划线了没有填词。

在合并pdic时就可以发现问题。漏划线的问题一目了然。

2020-08-27_085544

2020-08-27_184409

2020-08-27_184421

词头完整版，（就…来讲（说））吧，弄成@@@LINK）手摘后更新mdx。

链接更新于9/9号

文件下载-奶牛快传 Download ｜CowTransfer

cqy34i

dqg · 2020 年8 月 21 日 14:04

支持！记录下！越来越开朗！

Arlin · 2020 年8 月 22 日 03:43

chigre前辈的软件可用于ocr、校对和切片等，是前期辅助。得到的数据可以生成特定格式的文本，用vim老师的工具快速生成带粗略定位的mdx、mdd和css。

MdxSourceBuilder是用于快速生成图片词典的。前期工作还是得另做。下载好vim和适配的python，按照说明准备好材料迅速生成词典。亲测好用！这个工具就相当于使用Excel生成txt进而生成mdx。

DictView · 2020 年8 月 22 日 07:36

SSYH翻译这个词典的全名叫什么?

DictView · 2020 年8 月 22 日 07:41

楼主的SSYH翻译这个词典的全名叫什么?

Arlin · 2020 年8 月 22 日 08:30

TA打错了，应该是SSHY。全名是《史氏汉英翻译大词典》

hua · 2020 年8 月 22 日 09:06

JZFL JXHZMSHB

看得懂吗伙计们？

简直服了就喜欢这么说话呗

W2K · 2020 年8 月 22 日 10:11

我不是不写全名，我担心我做不出来。
因为不会的东西太多，最后问明白的3-5分钟就可以完成的东西我能自己鼓捣半天。
你也不要把浅色的字弄得那么隐晦。页面上有的我都扫的见。

hua · 2020 年8 月 22 日 10:46

你做不出也没人说你什么，这本来就是交流。现在写上全名了，挺好的。对了，我完全不会做切图词典。就这而言，我也会向你请教的。

浅色的字只是表达一下我看到 SSYH 这四字母的感受。

Arlin · 2020 年8 月 22 日 12:50

我想你应该是还没仔细看表格。填入页数后，有一张表会自动选出无词条页码的，你筛选一下就看得到。

Arlin · 2020 年8 月 22 日 12:55

special_pages会导致导出失败，我在交流帖是有记录的，不过昨天你没看到，我也没想到～

W2K · 2020 年8 月 22 日 13:00

128无词条页码。
那个是_SpecialPages填写不规范。先$ \t 再([0-9]{4})\t $1，改过来就可以正常导出_file_log.txt文件了。

Arlin · 2020 年8 月 22 日 13:13

其实我不理解你为什么要加上这段空白，在我看来留一段空白占面积没有必要。

至于为什么要乘缩约比：
因为我们在软件中所看到的图片并非实际尺寸，已经缩小了，所以存在缩约比。
软件中的数值*缩约比才是图片的实际像素。切片已经脱离了软件，要的正是实际像素。

W2K · 2020 年8 月 22 日 13:30

这词典和别的词典不大一样，要是不加上面一块你看看比较下就知道了。
也许这种情况别的词典根本没有。

这是画完线直接切出的图

手工画线只能贴着字的上边缘画，切完了太丑了。我反复比较觉得加上才好看。
（乘上缩约比，和我在软件里测量的比例几乎一样。）

Arlin · 2020 年8 月 22 日 13:38

不是吧，手工画线是想画哪里画哪里

W2K · 2020 年8 月 22 日 13:46

也可以往上画些，但没我这个比例统一啊，这回会改数据了，也就10来分钟都用不了的事。但筛出不是词头的不用加的用正则也不费事，就是多了步工作。
弄完了想出了还有个更省事的办法，就是词头划线顶上一项内容底部划线。后期词头上面过多的空白用clip控制也行，省事省力。

Arlin · 2020 年8 月 26 日 02:58

[20190104完成] 史氏汉英翻译大词典全索引切图版(+整页版)

(出处: 掌上百科 - PDAWIKI)
正文页面：1276
其他页面：42
划线词条： 1993（目前只有1985，说明漏画线。我的那个wordlist虽然拼写不一定对，词目数倒是正好1993，你可以查漏补缺。）
另见词条： 120（不知道是什么，估计是PDF里带括号的词头（就…来讲（说））吧，弄成@@@LINK）
拼音索引： 24（这个数字也挺奇怪，如果是指A-Z索引，没有i u v，应该只有26-3=23个才是）
切图数目：4377（应该已经删除了空白图。空白图在当词头处于栏首且画线距离起始点Y有一定距离时产生。）

为什么？
因为切图导出的file_log或者是PWWords中，有的词目切片（2）.png排在（1）.png的前面，正常顺序应先(1)后（2）。
怎么办？

比如，从切片名 0912_WW_000(0-2).png 中删去_WW_和括号，生成序列091200002，作为排序依据，升序排序。

W2K · 2020 年8 月 26 日 03:34

大体上三块问题
1）词头少，是漏划线了。（解决办法话先后得到的词头和wordlist都导到excel表格里一校对就可以矫正）还有（就…来讲（说））吧，弄成@@@LINK）。这个是你提醒我的，没做过词典不知道，现在已经明白。
2）至于这个白条子，我看它编号找特点呢，要是简单粗暴删除我觉得还是没根治问题。

3）我是这样处理的，你也可以试试别的词典上看这个方法可靠不。要是可靠就不用改名子了。点点鼠标就完事了。

周末有时间看看把有问题的地方再做一下。

Arlin · 2020 年8 月 26 日 03:44

大多数为除（1）外的000。

Aaron · 2020 年8 月 26 日 09:28

好像还有些问题，反馈一下。谢谢制作。