J.I. Rodale的两本书

了解一下:

本人是技术小白,感觉文本质量很高啊。没见着有单词错误。

2 Likes

藏品丰富 :+1:
这么多搭配词典里,牛津英语搭配词典收词较全,麦克米伦搭配词典编排最合理,王文昌的搭配词典和日本英和活用大辞典收词也比较丰富,其他无论是收词还是编排都不是一个量级。
Rodale这本搭配词按词性分类,同词性搭配按字母编排,查找不便,但是内容上有时胜过前两者。
试比较五本词典中achievement的动词搭配词
Rodale(21个动词搭配词):
verbs
belittle—; conceive—; denote—; disparage—; enhance— ; facilitate— ; hedge about—;laud— ; leditate on—; mock at— ; plan—;praise— ; proclaim—; question— ; reaffirm—; rejoice in— ; strive toward— ; —contributes to; —distinguishes; —goes unrecognized; —mocks.
牛津(7个):
thing done successfully
• VERB + ACHIEVEMENT be, constitute, represent This conference in itself represents a solid ~. | celebrate, honour/honor, recognize This award honours/honors the ~s of American women in medicine.
act of achieving sth
VERB + ACHIEVEMENT measure standards by which to measure human ~
麦克米伦(7个):
Verbs frequently used with achievement
acknowledge, celebrate, highlight, honour, mark, recognize, reward
王文昌 (12个)
V1 add a new achievemenl增添新成绩/ belittle sb.'s achievement贬低某人的成绩/evaluate the achievements of pupils评定学生的学业成绩/mock at sb.'s achievement嘲笑某人的成就/praise sb.'s achievemen!赞扬某人的成就/ proclaim achievemenl宣告完成/promote efficient achievemenl of our goals促进我们目标的有效实现/reaffirm a great achievement再次肯定某项巨大的成就/ rejoice in other’s achievements为别人的成就高兴/ strive toward achievement力求成功/ It surpasses all prcvious achievements in lexicography.它超过了前人在词典编纂方面的一切成就。
V2 The achievement goes unrecognized.这项成就未被承认。
研究社新編英和活用大辞典 (15个)
【動詞+】
⇒ accomplish a great achievement
⇒ Few children of famous men can emulate the achievements of their fathers.
⇒ evaluate sb’s achievements
⇒ honor sb’s achievements
⇒ measure academic achievement
⇒ The President praised the achievement of the first men to land on the moon.
⇒ produce brilliant achievements
⇒ When was this achievement realized?
⇒ The book represents the highest achievement of the printer’s art.
⇒ stimulate achievement in industry
⇒ It surpasses all previous achievements in microcomputer design.
【+動詞】
⇒ Such achievements arise from single-minded research.
⇒ Her achievement stems from a great tradition.
⇒ This achievement surpasses all previous attainments.
⇒ Her major achievement took place in 1992.

1 Like

老哥这里列出的 The Phrase Finder 2020不知是不是这个:

看起来不是上面讨论的那本The Phrase Finder呢

原PDF是OCR过的,还是找到一些图像问题导致的文本错误, 比如这里:
image

PDF自带文本是:
CASUAL

adverbs
charmingly; nonchalantly; habitually; cool-
\y<, presumably; indeterminately; usually;

这本书是1947年出版的,有没有可能很多说法都已经过时了,所以牛津上面没有?

其实几十年来,英语表达变的只是少部分,其他都比较稳定。
研究语言的人会认为只有strong tea,foot the bill这样的词组才算搭配,但是对学外语的人而言,只要是英语本族语认为能够接受,这样的搭配对英语表达就有帮助,就越多越好。

我下载了pdf看了一下介绍,发现这本书非常好,它不单单是一个thesaurus,而是针对这个单词把不同场景下能用到的搭配都列了出来,目的是给作家改进style用的。上面那位朋友发的HTML也是有处理价值的,我打算仔细分析一下,如果能做出mdx那就真的太好了。

这位朋友说的不错,语言在不断变化,但近一百多年英语已经比较稳定了,而且还有可能变来变去又变回来了。
开卷还是有益的,老书也一样。例如

1 Like

是你贴图的这个。

The Phrase Finder, 2020

Phrases, Sayings, Idioms & Expressions 
Thousands of English idioms, phrases and proverbs that we use every day, with their meanings and origins explained.
Number of Entries: 4,104
Phrases & Related: 1,994
Number of Idioms: 609
Miscellaneous Entries: 53
Linked Entries: 1,448
Data from: The Phrase Finder
Data Crawled on March 31, 2020 by NHB42
MDX Made by NHB42 on May 18, 2020
Last Modified on May 20, 2020 by NHB42

我本来想把这个HTML处理一下呢,粗看一下没什么大问题,但是我仔细研究了一下,发现了重要的问题导致没法继续处理,因为很多地方的识别方式完全是错的。这本书本来全部都是左右两栏排版,左边写满了再写在右边。但是原书页面如果左右两边同样位置都是空白,这个OCR软件直接就把这部分空白当成上下两部分来处理了,这是完全错误的。比如下图中,OCR软件直接从红线部分分成上下两页来处理了。这种错误可能还有不少,而且不好发现。

这个问题感觉还好, 每个词头都是全大写的,较容易区分。只要提取时没有混淆不同词头的内容,最终mdx生成时词头都会重新排序, 实际上不会影响最终结果吧。不过估计会存在不少词头的内容被切分到错误位置的情况,这就比较麻烦。

1 Like

先使用软件把pdf每一页左右拆开,然后再识别,这样是否就可以避免你所讲的问题了?

这个问题不解决就没法自动化处理,因为就是你说的“取时没有混淆不同词头的内容”做不到。

是的, 再想想办法看

是的,你能帮忙弄一下吗,弄好了我来加工mdx :grinning:

我正尝试使用abby finereader切割,不知道效果怎么样。论坛里的排版高手肯定有更好的办法吧。

你是用什么软件识别的?

1 Like

直接用abbyy 15导出原pdf为html, 确认了下是重新OCR过了。对比原pdf自带的ocr文本, 似乎错误更多。

1 Like

那样的话,就算用abby左右分开后,识别还是个问题。