图片词典的制作规范与开源工具

要是能做成ComicEnhancerPro使用体验的那样软件就好多了。每页校对完直接一键生成每页的txt(直接可以转mdx那种,然后再合并txt那就简单多了,对应的切图也直接生成。
说实话他那软件设置分辨率我都没弄明白,每次都调显示器分辨率 :joy:
刚拿到他的软件时也试着用了下,可在过程中不会不懂得太多了。还有个很重要的前提,能有好的扫描文件太不好得到了,尤其是自己喜欢的。

楼主制作的朗文英语写作活用词典图片mdx还有更新吗?主要是索引方面。
这个无论是文本版还是图片版,索引和跳转方面还有提升的空间。
在解决有无问题后,如何进一步优化mdx的索引和跳转就成了提高利用便利的关键。

朗文英语写作活用词典 ,我是 双解文字版 + 双解图片版 结合使用:主力是文字版,对不确定的内容用图片版。

其中图片版,我是买的高清版,卖方扩充了无数个词条,但感觉不太好用,因此坚持使用最基本的词条,没有做什么特别处理。

1 个赞

谢谢分享使用经验。
索引也许不好做,但我觉得至少在跳转方面,chigre3制作的图片mdx确实很好用:
每个查询结果都有很多跳转链接,如“目录 | 前言 | 原文序 | 类目表 | 如何使用本词典“等等,可以随时回到目录或者按主题排列的“类目表“,相当于词条的聚合页,从那里又能跳转到感兴趣的其他相关词条。这些跳转链接把整本书有机的结合了起来,使得查询mdx的体验更像是在翻纸质书,而且电子版还有翻检迅捷的好处。所以chigre3的这种做法值得学习。
目前 朗文英语写作活用词典无论是文本版还是图片版mdx,使用中总感觉各个词条是分割开的,就是因为缺失词条的聚合页或者说分类目录,难以“从某个查询结果词条—如果没有其他相关词条的跳转链接但至少可以回到分类目录—查看感兴趣的相关词条“。当然绝大多数mdx都有这个问题,只是对于按主题分类的词典来说,这种分割感更明显一些。

这本书是港版的简化汉字版,而港版是培生教育出版亚洲有限公司基于2002年英文第二版翻译的。这本好书确实值得多用多看。再次谢谢楼主制作分享的图片版mdx,方便了大家。

1 个赞

“图片版mdx源文件生成工具 by tsiank”的问题补充:

1、页码不连续,或连续页码但某页面的keyword为空,其生成的源文件是无法编译为mdx,需要将源文件中keyword为空的词条删除。

2、若图片文件名的前缀和页码数字之间没有下划线等作为分隔,将无法正确提取css文件名,从而需要在输出的源文件中进一步修订。

3、若keyword中包含有反斜杠\,则excel无法生成源文件。

以下是我用vim写的vimscript,对excel生成的源文件进行修订,这样就可以解决上述1-2的问题,从而在加入封面、扉页、序言、目录、附录、封底等内容时可以无所顾忌。须根据具体情况灵活应用:若没有css文件名,则在css那一行加上文件名;若图片文件名为jpg,则将png更改为jpg,如此等等。

" 修正mdx文件格式
echo "开始修正mdx文件格式……"
set ff=dos
set nobomb
set fileencoding=UTF-8
echo "已修正mdx文件格式"

" 修正语法格式
echo "开始修正语法格式……"
silent! %s/stylesheet"type/stylesheet" type/ge
silent! %s/\.css"/\.css" /ge
silent! %s/\(goto.\{-}\)\(href\)/\1 \2/ge
silent! %s/img class.\{-}png"/\0 \//ge
silent! %s/<pagetitle><\/pagetitle>//ge
echo "已修正语法格式"

" 清除没有词条页面产生的错误空词条
echo "开始清除错误的空词条……"
silent! %s/^$\n.*\n<\/>//ge
silent! g/^$/d
echo "已清除错误的空词条"

w
1 个赞

对于前言、正文、附录多套页码系统的处理

目前,可用tsiank的excel工具分别处理前言、正文和附录,然后再Merge到一起。
理想状态则可以更加方便地个性化定制:

导航系统可以这样改造(不同部分有不同的页码,切换起来像动画):

  • 封面 1…9 10 /11/ 12 13…88 正文 附录
  • 封面 正文 1…9 10 /11/ 12 13…1700 附录
  • 封面 正文 附录 1…9 10 /11/ 12 13…39

或者这样(不同的内容展示在不同地方,代码更好处理,更加容易定制):

  • Pages:1…9 10 /11/ 12 13…88
  • Keywords:A B C D E F G
    正文内容
  • Cover Preface Content Index etc.
  • Pages:1…9 10 /11/ 12 13…88
2 个赞

先完成一个基本框架,适用于封面、扉页、前言、目录、附录、封底之类的情形,可以说是正文的简化版:

  • input: 页码 + 词条
  • 处理程序:配置相关参数,一键完成转换
  • output:可以直接被mdxbuilder使用的mdx源文件

一键转换.gif

1 个赞

目前两套导航兼容在一个词典里,未来可以进一步统一:

已完成雏形,效果预览如下。

程序特点:

  1. 从标准的词条可以一键输出mdx源文件
  2. 对词条格式的兼容性强:页码可以跳跃(比如不想要某些页面),页码可以没有词条(比如某些词条跨了好几页,关键词只要一个即可,页码却都需要保留),页码可以乱序排列,页码可以重复。。。
  3. 在一个词典中兼容多个导航系统:封面、前言、正文、附录,各有各的页面导航
  4. 可以自定义导航内容,如:封面、版权、凡例、正文、附录、封底。
  5. 使用Vimscript编写,从此,词条文件编辑、转换都只要在vim中即可完成。

样式特点

  1. 正文导航系统中有keywords导航,一个页面的多个多音字等会同时加亮显示
  2. 页面导航的CSS定义可以很细致:区分首页、前两页、前一页、当前页、后一页、后两页、末页,案例中,实现了当前页逐渐向两边缩小的dock效果。
  3. 页面导航在top和bottom可以设置不同的样式,便于多个词典区分浏览。

1 个赞

现在可以完全不用tsiank的excel工具了

1 个赞

功能强大!
后面建议主要围绕自己的需求进行功能增强。
比如,要对mdx的词头校对修改,可否基于其解开的原txt文本(可考虑一个词条一个txt、编译mdx再合并),以修改词头或增加链接;
比如,目前还是整页的图片mdx制作,有无制作切词mdx的兴趣。

目前已能够满足基本需求:让新人也可以简单地制作出质量还算满意的图片词典,同时词典使用者也可以在前人发布的成果基础上进一步优化改进或个性化处理。

我计划自己先用它制作几个词典,优化后发布,大家可在此基础上灵活改造。

关于修订词条:1、若有原始的词条文件,那么修订就特别简单,只要修订后重新用这个程序输出即可。2、若无原始的词条文件,可以将mdx源文件反编译重新生成词条文件(至少现有的版本反编译是可能和容易的),然后修订并重新输出即可。

切词mdx:一方面超出我的技术能力了;另一方面好像无法反编译,不利于词典资源的再次改造利用。

1 个赞

其实就是引入在整页图片上划线、一次性切割成小图、自动编号命名的GUI操作功能。这个往往是在已有整页版mdx的情况下的进一步制作,不需要反编译
这个要看个人兴趣和时间。
一步一步来,当前这样已经足够强大,发布出来已经是大功一件了。

Vim师可以考虑开一个GitHub页面来发布

2 个赞

终于完成第一个自我满意的可发布版本了;待明后天学习了git,再在github发布,tel群里发了一个预览版本,着急的群友可拿先去看看。

没邀请到高人,只好自己动手使用熟悉的Vim来处理了。

非码农,这是人生第一个具备完整功能的程序,现学现卖,高人勿喷,多提意见啊。

视频演示:MdxSourceBuilder_哔哩哔哩_bilibili

1 个赞

相比最初的设想,目前在如下方面得到了进一步加强:

  1. 关于input的词条格式,不再局限于某一种。因为我发现,不同词典的词条数据源多种多样,尽量使用原始的格式,这样修订最方便。因此,程序默认提供了三种词条格式,大家还可以在此基础上不断添加适应自己需求的词条格式。实现思路大致是:原始词条==》标准词条格式==》mdx源文件。
  2. 关于output的导航的内容及样式,不再局限于某一种。一方面满足词典不同组成部分的导航特点;另一方面也满足大家的个性化定制。程序默认也提供了三种导航,大家还可以在此基础上不断添加个性化的导航内容及样式。
  3. 增加了自动化打包mdx。从原始的词条到最终的mdx词典,只需要一个命令即可实现全自动转换:原始词条==》标准词条格式==》mdx源文件==》mdx词典文件。
  4. 极大增强对词条的兼容性:页码不必按序排列,可以不从0001开始(如有些附录延续正文页码),可以跳页(有些页面不想要,比如空白页等),可以同一页码多次出现(比如从别人那里拿来词条,但不清楚是否覆盖所有页面,那么可以自行添加一个完整的页码即可,不同处的词条会按序合并),可以只有页码没有词条(比如有些词条跨了好几页,只要保留第一页有词条即可,其他页留空),可以有空行(忽略不计,避免编辑疏忽)。
  5. 完全使用开源工具,甚至跨平台使用Win\Linux\Mac。
1 个赞

您的这个需求,功能上已经完全满足,甚至超越了(直接到mdx)。
体验上,若您能接受Vim软件,那就更是体验超群(从编辑词条到输出,都在Vim中一气呵成,完全不用切换到其他软件);但若您难以接受Vim,只能说,将就着用吧,毕竟有人都不知道如何退出Vim。

1 个赞

放出来就试一试,没用过Vim,希望他对我友好点。 :v:

已发布:

1 个赞

非常感谢您的帮助,我将尽力在您提供材料的基础上,再重造一个轮子。

1 个赞