【交流】图片词典制作(Q&A)

       旧帖从PDF转为文字版后字数超限,部分内容由图片呈现,其余可在页内检索。此贴专用于汇总坛友在学习切词的过程中遇到的问题和可行的解决方案

Q:如何设置参数才能实现全自动画线?(HDtiger)
A:依照参数图,移动鼠标,根据软件左上角显示的坐标计算出个各个值。单栏宽距和间隔要多注意,勿超出页面。

参数图

Q:点击自动画线后界面卡死
A:这种情况目前只在图片背景透明时出现过。二值化后的图片画线率最高,因此可以准备两套相同规格(尺寸和边距相同)的图片,一套二值化后用于画线,一套高清用于切图。

Q:词典无可用索引怎么办?
A:可使用外部工具OCR词头生成wordslist.txt于校对窗口填充词条。也可以直接使用画线软件OCR。OCR完成后,导出其他类似词典的词目生成wordslist.txt用于校对。

wordslist校对

Q:点击ocr后无反应(dqg),软件自动退出
A:
点击ocr后无反应(dqg):
→新版软件无此问题。
点击ocr后软件自动退出:
→可能是因为ocr语言包版本与软件不匹配,请于说明书内的指定链接下载语言包。

Q:点击校对时报错,提示“偏移量和长度超出数组的界限,或者计数大于从索引到源集合处的元素数量。。”,或“索引超出范围,必须为非负值并小于集合大小”,或“索引超出了数组界限”,或“内存不足”。(W2K)
A:
“偏移量和长度超出数组的界限”、“索引超出了数组界限”:
→参数主要调整单栏宽距和间隔;SpecialPages.txt数据格式有误,页首Y值过大(页尾Y值过小);pdic中带有空行。

“计数大于从索引到源集合处的元素数量”、“索引超出范围,必须为非负值并小于集合大小”:
→将wordslist.txt(非空)放入图片所在文件夹。在没有较精确的索引时,wordslist可以是众多词典词目的集合。

“内存不足”:
→图片边距过小,30像素左右。
→单栏宽距或间隔数据不合理,需调整参数。
→底部画线超出页面,往上画线即可。



Q:校对窗口左侧索引没有按页码划分(dqg)
A:检查是否已将page_words.txt放入图片所在文件夹。也可能是因为图片名与wordslist.txt或者page_words.txt当中的不同,导致软件无法正确识别页码。建议图片名使用4位纯数字命名,后期整数据再按需更改。

索引精确时,校对窗口左侧的第一个词目应当是上一页的页码。

Q:自动填充词条时报错,提示“从字符串到类型integer的转换无效”(dqg)
A:第一次使用整页填充时,在勾选【填充词条】左侧上下两个框后,需要点击该页面的第一个非数字词目。此后,当该页画线与wordslist当中的词目相等时会自动填充词条。

填充词条

Q:特殊页(带字母索引等)空白如何处理?(W2K)
A:创建名为_SpecialPages的txt,放入QT文件夹,按照格式将坐标信息填入。请确保格式准确、数值合理,以免在导出pdic数据时提示“索引超出数组界限”等。

0001Tab100Tab/*首*/
0001TabTab180/*尾*/
0001Tab100Tab180/*首和尾*/

image

image

image

Q:如何增加切片宽高?(W2K)
A:将pdic数据导出得到 _file_log.txt。复制QT文件夹下 _file_log.txt 的数据到Excel里计算。注意:增宽或增高后不能超出原页面


Q:如何使用Imagemagick切图?(W2K)
A:在_file_log.txt中使用如下正则后存为.bat,放入图片所在文件夹后运行即可。

^(.*?)\t(.*?)\t(.*?)\t(.*?)\t(.*?)\t(.*?)$
magick \1 -crop \5x\6+\3+\4 -transparent white \2

Q:如何获取文件夹下所有图片的尺寸?( fruition)
A:
可参考chigre前辈获取图片宽度的做法:
image
安装好ImageMagick之后,在窗口中(非.bat)cd 到图片所在文件夹,稍微改动命令:

cd 图片所在文件夹的路径

magick identify -format "%f %w %h\r" *.png > info.txt

identify无法识别时添加magick
-format:定义输出格式,%f 文件名,%w 宽度,%h 高度,\r 换行,*.png 图片类型
info.txt:将内容保存至info.txt,可以随意取名

获取图片信息

Q:如何按词目整合切片?( dqg)
A:我的做法是,将页码结合切片类型数字作为排序依据按照数字升序排序,除(1)外的并入(1),即可与词目一一对应。无插图、重复词目不合并的情况下,双栏词典切片顺序为:
(1)(0-1)
(1)(0-1)(0-2)
(1)(2)

image

感谢坛友贡献图片!

以上问题,再问不答。
参数设置问题,实在无法解决的情况下,可打包几张标准图,附上缩约比。

于实践中思考。
遇到问题请先翻阅chigre前辈写的教程软件使用说明书。用好搜索,什么不会搜什么~

奥利给!

6 个赞

图片怎么又没了…

确定上传完毕了 再发布的吗 只能委屈你再上传一次了

感谢airlin的汇总,离成功又开朗了一步

放心啦,书籍那么多,人手倒是紧缺。

今天你又努力了!

要是此帖子早点出来我会少走不少弯路。教程就要是这个样子,要讲细节,太笼统只会让人迷失方向。

此帖只是再次强调重点…

我只感慨,没别的意思。那天问你模板后,遇到的所有问题我都自己解决了,把新时代英汉做了一个纯切片的,没要整页,太占空间。

1 个赞

我也感慨。 :rofl:

其实问题都能解决,只是时间问题。

图片词典就是 不压太大,压了费眼。

仁兄所言及是呀!,要是沒有Arlin 美女詳解,很多東西不知要搞多久…

大和尚后来成功获取图片尺寸了吗

還沒有用另外一台電腦試,但覺得 batch file, 應該是可行,因之前試過 crop 和 append 都是沒問題的

太难了,学不会

看了美女的讲解,怦然心动,但没见软件呢,哪位分享一下!

image
1.现在许多词典印刷已经不符这个图上的.
切图逻辑,例如朗文当代6,加粗词头和内.
文齐头,
2.最尤重要的是要校直图片,我试过能批量.
处理,adobe acrobat pro,pdf经过ocr后会
自动校直,图不正,参数都会跑掉
3.校直图片,自动切图,接图(换栏、换页),ocr词头后,重命名图片