《史氏汉英翻译大词典》图片词典制作记录帖子--完成版已发布

有这个想法是 @Vim 在掌上百科发的新时代开始的。
软件是百科前一阵子 @chigre 本人发出的,不会用。
@chigre 做过的词典大家都看过就不介绍了,好多人现在还在找他切的词典。(有的玩多谢百科的 @chigre :wave: :wave: :wave: :+1: :+1: :+1:

下面记录下过程,和遇到的问题。

问题最多的是经常是 忽略继续or退出 也就是说使用不对。

目前还真没碰到是软件的问题,都是设置参数或文件不规范造成的。

数值不要照抄,都是参考,因为屏幕分辨率不一样所填入的参数也不一样。起始软件里有说明,都写得很细了,不懂还有 @ Arlin帮忙,剩下的也就是动手了。(对了,多说一句,要是 @Vim 的软件和使用方法先发出来我会先用他的方法做图片词典,因为没有头绪弄图片词典不知无从下手)

进度:
(1)图 完成
(2)词头是@ Arlin帮忙做完了传给我的。(page_words,wordslist)
(3)划线填词 完成
(4)从PDIC导出切图信息调整切词坐标 完成
(5)在excel里改完数值,另存成.bat文件切图 (这一步不是必须的,根据词典来,改完的安装ImageMagick Display,把。bat文件放到图片文件夹双击他就自己干活了) 完成
(6)合并.pdic数据倒进模板copy出文本,替换 完成
(7)合并.PWWords文件转txt完成,切词的txt替换,怎么替换不会 正看着弄呢 算完还是不算完呢
(8)解决问题中 解决 完成
(9)查找疏漏,总结。
(10)此图片词典制作方法成熟,喜欢切图词典的都可以上手制作。

以下问题都是 @ Arlin帮忙解决的,在此感谢!

1)准备图略过,相关的图片词典很多看看就知道了。

2)上来划线就频频出问题,解决方法是:单栏宽距,间隔数值的搭配,间隔数值比实际大些,单栏宽距比实际小些。

3)图片名先不要加,不然校对时无法识别页码,按下一页不跳页。

4)从PDIC导出切图信息失败,_SpecialPages里面手敲输入不规范。按照_SpecialPages示例填写 解决。


下面的可能要返工。
词头y整体要加55px,@Arlin 告诉我测试得数值*缩约比(55*缩约比)。Excel不会,百度完了怎么弄回来不会。这时呼 @dqg,解决了(EmEditor里CSV选项里点制表符,剩下的就和用Excel一样操作了,完事了再点标准模式还原初始状态,另存为.bat格式文件)。双击没变化,找帖子无解。看chigre软件使用说明,安装ImageMagick Display开切,结果是整体全往上提了相应的数值,显然不对。这时观察切出的图片单更改第二排数值还是不对,相应的第四排也得更改才是我要的切图(二排数值减多少四排数值就加多少)。测试还是不对,就改的只有词头图片的数值,其它切图保持不变才是对的,不是每张切图都要改。观察图片名字找出词头命名特点带(1)是词头文件名,剪切出去改完粘贴回来,排序。这里和软件说明不一样,@Arlin 给的:查找:^(.?)\t(.?)\t(.?)\t(.?)\t(.?)\t(.?)$ 替换:magick \1 -crop \5x\6+\3+\4 -transparent white \2 。存成.bat文件放到图片文件夹里双击。

要往上提高切图位置

导出的_file_log.txt打开处理要改的数值

改完正则替换后保存.bat文件

要是熟练的话会很快,excel加减再粘贴回来3-5分钟可能都用不了,我却耗了一晚上。
Picture_Capture_Chigre软件导出所有图片切图信息失败找原因找了一个半小时。

导入数据至模板得文本:

打开CMD命令行, 合并所有的.pdic。
20161017_图片版词典万能模板文件夹里有说明。我只是复制出来了,还没有替换。

盘符:
cd 文件夹名
copy *.pdic all.txt

打开图片版词典万能模板.excel。导入合并的数据all.txt。

当单元格右下角出现+时双击

1)填充序列:[1]→[2]→……[9]→……[12]→[13]→[14]

这里是刷新:[9]选中W2单元格→【右键】→【刷新】

2)[13],[14]两列数据【复制】到新建文本文件,保存格式为“UTF-8无签名。

感觉在学excel表格软件,新东西上手真不快,和词典无关。最后操作了下实际时间一根烟都用不了。

又发现新问题,还是在excel里的,核对A12单元格(页数差: -X)。如果某页面无任何词条,则在[14]中不会出现,需要手动添加页码及其文本内容。要费点时间了 空白页问题解决。

也许我excel用得不对,总之复制过去的内容不对,但A列是无词条页面所缺的页码。复制出来改造好后复制到14下面(13,14已万能模板_替换步骤替换完),整页版的完成(压mdx前词典名统一替换下字母缩写)。实验品初步做出来了


无词条页面所缺的页码


粗糙版完成,切词有问题,顺序不对,看不懂。正了解中。 已解决

@Arlin
Q:如何按词目整合切片? ( dqg)
A :我的做法是,将页码结合切片类型数字作为排序依据按照数字升序排序,除(1)外的并入(1),即可与词目一一对应。无插图、重复词目不合并的情况下,双栏词典切片顺序为:
(1)(0-1)
(1)(0-1)(0-2)
(1)(2)
这些东西是神马玩意呢,再看看想想吧。


原GIF挺清晰的,不知道传到这咋就这样了。

Video_2020-08-23_170849

看图吧,但雏形已经全在了,整页版无问题。单双栏大小屏切换无问题。

切词的顺序无问题(如何按词目整合切片?)

最后问题还是出在切词的_MDX.txt里。
最后的问题我又按说明里替换了下切词的_MDX.txt。问题依旧在。

GAME OVER

001

@Arlin 告诉按模板正则替换(切词txt和复制出来的13去重词头,内容合并就完事了),太晚了,明后天有时间替换完,就差最后还有1/3没替换完,怪不得给我的模板是一直行的,替换方便,模板断行的看着方便,直行的用着方便。

2020/08/20下午开始PDF导出图,到今早上把昨晚剩余的替换完,调整下多义词。到今天早上也就是25号早上基本完成。

词头(1985个,其中含14个多义重复的)
本贴为练习帖子,熟悉全部流程。目前发现问题是首页多义字“挨”切词再切换整页高亮页面不灵,漏划线“编”。这个切图软件使用还未试过抠图这个功能,有时间周末看看怎么使用。其余的如何使用基本都走了遍。挺好用的制作图片词典工具。

漏划线的


其它的使用无问题(只指制作出来使用上)。




本实验制作贴到此结束,感谢过程中解惑,答疑的论坛小伙伴们。

发布初试版,已知问题:
1)由于手摘多义词“挨”字有些问题
2)就…而言(语)这种词头是作为@@@LINK处理(未处理,@Arlin建议,我想了想才明白啥意思)
3)漏划线字”编“等。因为没有进excel表格校对。

以上问题周末有时间再完善。

纠正制作中问题

编 0039
当中 0143
挡住 0143
发表 0188
发生 0196
掠夺 0547
*怕 0627
要紧 1067
要命 1067
要是 1067

漏划线词头,带星号的是划线了没有填词。

在合并pdic时就可以发现问题。漏划线的问题一目了然。

2020-08-27_085544

2020-08-27_085950

2020-08-27_184409

2020-08-27_184421

词头完整版,(就…来讲(说))吧,弄成@@@LINK)手摘后更新mdx。

链接更新于9/9号

https://cowtransfer.com/s/9ae7b096b59c49

cqy34i

6 Likes

支持!记录下!越来越开朗!

1 Like

chigre前辈的软件可用于ocr、校对和切片等,是前期辅助。得到的数据可以生成特定格式的文本,用vim老师的工具快速生成带粗略定位的mdx、mdd和css。

MdxSourceBuilder是用于快速生成图片词典的。前期工作还是得另做。下载好vim和适配的python,按照说明准备好材料迅速生成词典。亲测好用!这个工具就相当于使用Excel生成txt进而生成mdx。

SSYH翻译 这个词典的全名叫什么?

楼主的SSYH翻译 这个词典的全名叫什么?

TA打错了,应该是SSHY。全名是《史氏汉英翻译大词典》

JZFL JXHZMSHB

看得懂吗伙计们?

简直服了 就喜欢这么说话呗

我不是不写全名,我担心我做不出来。
因为不会的东西太多,最后问明白的3-5分钟就可以完成的东西我能自己鼓捣半天。
你也不要把浅色的字弄得那么隐晦。页面上有的我都扫的见。

你做不出也没人说你什么,这本来就是交流。现在写上全名了,挺好的。对了,我完全不会做切图词典。就这而言,我也会向你请教的。

浅色的字只是表达一下我看到 SSYH 这四字母的感受。

我想你应该是还没仔细看表格。填入页数后,有一张表会自动选出无词条页码的,你筛选一下就看得到。

1 Like

special_pages会导致导出失败,我在交流帖是有记录的,不过昨天你没看到,我也没想到~

128无词条页码。
那个是_SpecialPages填写不规范。先$ \t 再([0-9]{4})\t $1,改过来就可以正常导出_file_log.txt文件了。

其实我不理解你为什么要加上这段空白,在我看来留一段空白占面积没有必要。

至于为什么要乘缩约比:
因为我们在软件中所看到的图片并非实际尺寸,已经缩小了,所以存在缩约比。
软件中的数值*缩约比才是图片的实际像素。切片已经脱离了软件,要的正是实际像素。

这词典和别的词典不大一样,要是不加上面一块你看看比较下就知道了。
也许这种情况别的词典根本没有。

这是画完线直接切出的图

手工画线只能贴着字的上边缘画,切完了太丑了。我反复比较觉得加上才好看。
(乘上缩约比,和我在软件里测量的比例几乎一样。)

不是吧,手工画线是想画哪里画哪里 :rofl:

也可以往上画些,但没我这个比例统一啊,这回会改数据了,也就10来分钟都用不了的事。但筛出不是词头的不用加的用正则也不费事,就是多了步工作。
弄完了想出了还有个更省事的办法,就是词头划线顶上一项内容底部划线。后期词头上面过多的空白用clip控制也行,省事省力。

[20190104完成] 史氏汉英翻译大词典 全索引切图版(+整页版)
https://www.pdawiki.com/forum/thread-32373-1-1.html
(出处: 掌上百科 - PDAWIKI)
正文页面:1276
其他页面:42
划线词条: 1993(目前只有1985,说明漏画线。我的那个wordlist虽然拼写不一定对,词目数倒是正好1993,你可以查漏补缺。)
另见词条: 120(不知道是什么,估计是PDF里带括号的词头(就…来讲(说))吧,弄成@@@LINK
拼音索引: 24(这个数字也挺奇怪,如果是指A-Z索引,没有i u v,应该只有26-3=23个才是)
切图数目:4377(应该已经删除了空白图。空白图在当词头处于栏首且画线距离起始点Y有一定距离时产生。)

为什么?
因为切图导出的file_log或者是PWWords中,有的词目切片(2).png排在(1).png的前面,正常顺序应先(1)后(2)。
怎么办?

比如,从切片名 0912_WW_000(0-2).png 中删去_WW_和括号,生成序列091200002,作为排序依据,升序排序。

大体上三块问题
1)词头少,是漏划线了。(解决办法话先后得到的词头和wordlist都导到excel表格里一校对就可以矫正)还有(就…来讲(说))吧,弄成@@@LINK)。这个是你提醒我的,没做过词典不知道,现在已经明白。
2)至于这个白条子,我看它编号找特点呢,要是简单粗暴删除我觉得还是没根治问题。


3)我是这样处理的,你也可以试试别的词典上看这个方法可靠不。要是可靠就不用改名子了。点点鼠标就完事了。

周末有时间看看把有问题的地方再做一下。

2 Likes

大多数为除(1)外的000。

好像还有些问题,反馈一下。谢谢制作。