J.I. Rodale的两本书

非常感谢! 多谢~

我來不及抓,可以再掛嗎?

我试了试 ‎ABBYY PDF Transformer+‎
导出HTML确实可以保留斜体格式。工作量最大的还是校对,正则洗版其实算是简单的,当然OCR最为容易。

分栏的PDF,OCR前最好切割为单栏,也方便后面校对。

前面的那些灰色背景的PDF,应该先用PDF补丁丁和ComicEnhancerPro等软件处理一下。
尤其是需要作导出蒙版的处理,得到纯净背景的图片。

我幾個禮拜前在ABBYY也搞了OCR,首先用CEP處理過。工作過程還卡在spell-check,完成到70%,很費時間,像機器人一樣。後來custom dictionary累積到某個程度,稍微快了一點,可是還是挺慢的。

1 个赞

我是OCR导出HTML以保留斜体格式。工作量最大的校对,是直接按照mdx的HTML格式排版的,一校对完即为MDX的编译文本。在这个过程中,边校对边正则洗版,可省许多工作,但校对还是最费时间的。

校对HTML格式的文本,VS Code语法高亮和一些插件是真的好用。大屏幕显示器,两个窗口并排,一个图像一个文本

1 个赞

所以快完成了嗎?
這作家的書,有不少spelling error,除了英國人特有的拼法以外。而且這本書的adverb,有的像是造出來的,不算錯但也不規範,不是OED會收的詞。使得spell check搞得更慢。

不是本贴的
其他的英文书

1 个赞

链接挂了,老哥能补一个吗?

大力丸

第二本如果没有MDX,那就做一个呗

链接挂了,可以分享一下吗

1 个赞

FYI:

2 个赞

这里的环境超好的,大佬技术又好,说活又好听,我超喜欢这里的。
刚好查到一个错别字,刚好有空解包修改了
修改的地方和重新打包的mdx都传这里了。
大佬都是正则,爬取,啥的,我是小白,发帖的压力很大啊 :smile:

the synonym finder correct typos

\r\ncontour词条捉虫: Sllhouette to silhouette
The Synonym Finder.mdx (3.9 MB)
2022/4/22手工修改上述一个错别字。

1 个赞