很多词典电子书网上就只有文本型pdf,要做词典就得先转换成word、html或是epub进行修改,我用过的几个工具的效果都不太理想,其中的效果最好的calibre,转换出的文档也仍需要花费不小的力气去校改,实在是不想再这上面花费太多的时间。
建议不转。 我前些天修改过几个mdx和rss,仅修改一下就花了很多时间,做词典的时间肯定要多很多倍。 现有的词典已经非常丰富了,已经远远够用了,把制作更多词典的时间用来学英语吧。
不修都没法用,直接用 pdf 吧。
主要是词典这类书不做成词典,我个人基本是很少会去翻的,我笔记也是写了之后都不知道什么时候会去看一次,而且我读英语时间最多的地方其实就在词典上,因为很快很方便,配合anki和一些其他的开源软件我感觉比市面上那些专门用来学习语言的软件来得更有用。
把词典当电子书看当然不合适,经常看到有人找词典的扫描版我就很不明白:那查个词多费劲呀,难道把词典当书一样一页一页地读? 那得读到什么时候?而且读完就忘了吧?
但现有英语mdx词典已经非常非常多了,各种类型都有,为什么还需要自己制作新的呢?
另外如果你读英语最多的就是词典,那应该是读英语的时间就不多吧,因为很难想象有人会连续几十分钟或几个小时读词典,太枯燥了。
可以尝试用Word打开,另存为htm
然后用正则表达式完善该htm源代码
难度一般都不小。
格式转换不是问题,麻烦的是文本型PDF转化出来的文档的排版基本都会有不少问题和错位,这些地方修改起来就很难受,用哪个工具处理都不方便。
pdf完美转epub不可能。做成图片词典,省事,查词典又不会经常有复制需求。比如我的https://forum.freemdict.com/t/topic/31511。
不过现在有好多为了ai搞的工具,文本pdf转markdown,可以试试看。
我做的都是社科相关的词典,基本都是专注于某个学科的词典,特别是哲学、文学和宗教方面的,加上这些学科就是一个概念各有各的见解和说法,为了了解一个概念花费好几个小时是常有的事,需要去读很多材料,这时候这些词典能起到很大的导读作用,也方便找文献。不过我有机会去接触英语的场合确实很少,也是半年前才开始有些学英语的动力的,因为很多书就只是英文版,想读就只能去学英语。
PDF本来是一种印刷前文件,设计的目的是为了保证文档在各种平台、设备上视觉呈现的一致性,即不论你在哪里打开,它的版面、样式、字体、颜色等都是一模一样的。这种一致、严格、标准化、艰于更改,强调了作者(author)的权威,作者相对读者和使用者的优先性和高人一等,因此受到了出版行业、图书作者、学院派论文炮制者,以及大企业和政府这些官僚机构的喜爱,颇为风行,不过在手机时代和 ai 时代,pdf几乎要被人人喊打了。
怎么操纵、更改pdf,最基本的前提是了解什么是pdf,它的官方葵花宝典是https://opensource.adobe.com/dc-acrobat-sdk-docs/pdfstandards/pdfreference1.7old.pdf ,1000多页英文,读起来累死人。好在这个世界也存在速成手册,我见过、读过比较好的普及文章有两个:
-
The Structure of a PDF File The Structure of a PDF File. Introduction | by Jay Berkenbilt | Medium 此文的作者还提供专门的pdf解析工具 GitHub - qpdf/qpdf: qpdf: A content-preserving PDF document transformer
上面的内容相对专业,如果只是简单想提取文本pdf当中的文字,且保持比较好的版面,文本流,早年有一个软件工具叫solid converter,大多数情况下可以把pdf转成样式保真的word文件。到了如今,工具则很多,比较出名的有如下几个,主要目的是把pdf转成大模型可以方便利用的markdown、html、json、txt等格式。
- IBM 的开源工具 GitHub - docling-project/docling: Get your documents ready for gen AI
- 微软的开源工具 GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
- GitHub - VikParuchuri/marker: Convert PDF to markdown + JSON quickly with high accuracy
- https://olmocr.allenai.org/
但以上的工具也并非完美的,有些使用需要一定的编程经验,有些算力要求比价高,不少时候效果也勉强,最根本的原因是pdf并不是为了让你转换成其他格式而设计的,它还是那个原来的印刷前文件,是最终定稿,你是菜鸡就最好不要动它。
今天把一本法语教科书的单词附录拿去给豆包处理,让他识别文字,并分单词、释义、页码三栏处理。
可以说完美。
如果做图片字典,生僻字不多的话,现在处理目录词条真的很快很快。