J.I. Rodale的两本书

我看那個PDF,印象是有點麻煩。跨行的詞有破折號,例如 “a—larmingly”,“foul—ly”。

也許可以硬硬得把所有的破折號先刪掉,然後用大大的詞單把該有"—”的詞補回破折號,但這也不十分安全。而且,大大詞單從哪裡來…

OCR時,一定要保持每欄的寬度和換行位置(相對於輸出流動文字) — 這樣才能知道哪些破折號適合刪掉。

这个pdf里的破折号分长短两种,长的应该是替代符,短的是连字符。 连字符的使用本身是规范的, 不过扫描图像的质量不太高,背面的字符也时有透过,导致有长符可能识别为短符,短符可能识别为空等问题。

试过ABBYY的训练模式,同时使用灵活排版输出为html,不保留换行、连字符,可以在输出结果里自动去掉很多连字符。但还是难以完美。还有跨栏、跨页的连字符,就更难处理些。

2 个赞

Acrobat Pro,PDF 輸出於 text 有兩個選擇:
“Text (Plain)”,文字是靈活排的;
“Text (Accessible)”,保持換行的格式。

ABBY沒有保持格式的選擇啊?(我很久沒裝ABBY了。)

1 个赞

也许是新版的功能吧? 15版输出有好几个选项:

尝试选html输出是考虑到可以保留斜体、粗体之类的格式。

2 个赞

最好輸出兩個版本,一個保留格式,一個是流動的。
也許用流動版當底本,用格式版來spell check換行的詞。

word finder pp1-2.txt (6.8 KB)

我試用Acrobat輸出頭兩頁,發現它自動把換行的“idola-trous”改成"idolatrous"; “dra-matically"改成"dramatically.” 這樣,表面上很好,可是該有hyphen的,大概也同時被刪掉了。

SynFinder epub 原來也是經過這種程序,結果不該刪的也刪了。

连字符两端都有单词或字母,替换符一端是单词,一端是标点符号。应该有办法分开的。至于换行的连字符,即使保留也不影响阅读吧。

这软件从4.0版开始就有自学习功能。

2 个赞

可以连原材料的回车换行都一样。要和原材料完全一样排版保存为word可能更好,跟利于校对。

1 个赞

ABBYY Finereader有自动合并被连字符分开的单词的功能,可以自己试试。

不是大事 但數據夠大的話 也有不少讓人疑惑或愣一下的地方。尤其是詞類變了 例如 put-down (名詞,羞辱人的話)寫成 put down (動詞,壓制);make-up(化妝;結構)寫成make up(編造;補償);come-on 跟 come on。這都是常用詞,而且只提起verb + preposition的狀況,若碰到生詞 就更希望文本是可靠的。

abbyy一般只处理换行的连字符。put-down这样的单词正好处于换行处,概率次数应该很少。所以,出于减少校对工作量的考虑,利远大于弊

有人能花时间精力搞出一稿mdx就已经要谢天谢地了,还没到追求完美的时候

結果word finder 掃描得如何?我可以作這個 但懶得折騰OCR 的過程。

哇!沒有弄呀!,這幾天都沒什心情搞辭典,每天心情都忐忑不安,深怕中標,這兩天,每天200–300個中標,前兩個星期才去按兩下,這幾天一直胸悶,肚子怪怪的,感到非常害怕,怕是難逃這波的…

去买点硫酸羟氯喹和盐酸溴已新可以治疗,硫酸羟氯喹和硫酸锌也可以。

Brother Wang ,台灣哪有這個…,前兩天還接到越南妹的訊息,要來陪我幾天…嚇得我都不敢回…,這幾天已累計上千了…隨便看到黑影就會尿血的…

台湾当然有这药,不过去年台湾硫酸羟氯喹药厂发生火灾也不知道爆炸的,也不知道后来如何了。这药真有效,很常见。

今天也一間藥廠火災…危在旦夕…

跟印度疫苗厂火灾一个原因,地球人都知道为什么。硫酸羟氯喹原来是治疟疾的,盐酸溴已新是治疗哮喘的。都是常见药

是喔!更恐怖的是 那些萬華的 阿公店內的阿姨們還到處亂串…怕是火會越燒越旺

去买个防毒面具,要么随身带消毒液,遇到有人的时候就喷一下