J.I. Rodale的两本书

一本是 The Synonym Finder (豆瓣) ,PDF见
https://b-ok.global/book/2532144/ff74da ,就是本thesaurus,不过收词多。已经有mdx:The Synonym Finder.mdx (3.9 MB)
PDF截图:

一本是 The Word Finder (豆瓣) ,PDF见 https://b-ok.global/book/4975357/7aeb18 ,就是本搭配词典。PDF截图:

1 Like

能把第二个搭配的那个做成mdx就好了

1 Like

此本相当不错且丰富齊全,另外此作者还有 The Phrase Finder, ,也是相当好的工具书

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=38017&extra=

The Phrase Finder - 掌上百科编纂处 - Dictionary Discussion - 掌上百科 - PDAWIKI - Powered by Discuz!

The Phrase Finder Hardcover – 1958
J.I. Rodale (Author), Edward J. Fluck (Collaborator)

  • Hardcover: 1325 頁
  • 出版商: Rodal Books; 1st 版本 (1958)
  • ASIN: B001B98DJ4

— Three Books in one 是由三本書集合而成的

Part 1. Name word Finder
Part 2. Metaphor Finder
Part 3. Sophisticated Synonyms

二楼有人说Word Finder有人OCR了文本,不知是谁

在下是搞了一半 提示信息 - 掌上百科 - PDAWIKI - Powered by Discuz!
Štǘdēntš Dictionâry of Ãměricân Ēпglīšh - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!

Thɐ þhrašɐ Fïndɐr : Ìndɐx ǒf Kēyωǒrd

Ìndɐx ǒf Kēyωǒrd*

Word Finder 也是想弄,怕是体力不够了

2 Likes

Synonym Finder 我用了很久了。因為是掃描出來的,有多餘的破折號:印版裡換行的詞插了個"-",例如"tur-gidity"。問題是,有的詞卻該有“-”,所以無法批量處理。我看煩了,大概自己重新做新的。電子版有epub。

1 Like

Word Finder 後來發現這本有連續好幾頁OCR的部份有誤因那幾頁蠻多污點,只能人工,先擺著,等學號正則再繼續,連字號的問題也是這本的痛處,量太大,不太好處理

Syn Finder有58,000獨特的詞,但歸於16,000詞目—所以大多數的詞不能直接查。
印版沒有索引;MDX也沒有跳轉,哈哈。

理論上是可以加42,000跳轉,但不知道效果會不會怪怪的。會讓搜尋冒出一堆不同詞條。

仁兄的想法,在下幾年前也想過,應該是可行的,甚至所有的 thesaurus 詞典內的詞都該拿來當詞頭查,感覺一定很不一樣,同時也會更深層的理解這些字

Synonyms discriminated by Charles John Smith
有点心动这本大部头

貌似如今有云端OCR的,准确率很高

1 Like

我沒用過,在我習慣用的網站 也沒找到PDF。

1 Like

處理這個的正則很簡單,功夫主要在預備數據,規範化到可以使用正則的程度。大概很多製作mdx的問題都是這類的。

1 Like

你是說哪一個?我正則不太行怕會卡到很多地方

1 Like

本來廣泛得說 但我正在想 syn finder,詞條怎麼去掉釋文 去掉標籤 只留下當作跳轉的詞。重點不在最後弄出結果的正則 而在之前整理數據的正則。
syn finder,雖然是專業作品,裡面的數據和tag不規範,例如標點有時在tag外面 有時在裡面 莫名其妙換行 等等。數據不正不則,正則寫得多巧妙也不管用。要先用小正則整理數據。

3 Likes

最近研究正則雖未很深入,但已感到一些限制,在於需依其資料的特性去弄出正則式,有的資料需串連,有的需并連的方式來寫其正則,異常複雜,更甚之有如篩網,需一層一層的篩,因輸出只有一個,若需提取做為詞頭還需考慮捕獲組的搭配,一個完美的正則相當費力,除了需非常熟絡正則用法還需許多搭配上的應用和對資料組態的掌握…也是我相當的困擾,理解是一回事,完美應用更是另一回事,除非常常在試也常常在研究和觀摹別人的用法累積經驗和處理資料的直覺外,否則光學也是無法立即切入問題的核心
另外這是一個 利用 finite state machine 的特性來處理資料,有其同步和異步的特性,感覺上有的部份類似 shift register 的一些微運算的運作,除了匹配尚需考慮步驟數…,或許再熟捻正則一段時間的後會想學學 python 來處理,比竟程式語言在處理上會來的精確,而不像正則保有模糊策略的空間,正則雖彈性,但也因彈性而衍生出複雜的概念來處理資料

1 Like

请问有没有pdf文本?

1 Like

不用想太多,在EmEditor,拼命用Extract,尤其是Replace界面的Extract—可以實驗正則的結果。Extract完,再Delete Duplicate Lines,然後普通Sort—可以方便看出例外狀況,尤其是數據不規範。下一輪,可以用Advanced Sort,按長短排次,可以注意別的問題,例如正則寫得太greedy。

1 Like

有眼光,唯一能媲美Crabb’s的辨析词典。

目前收录搭配最丰富的要数《牛津英语搭配词典》,其他词典极少情况下能够提供前者没有收录的搭配。但是 Rodale这本The Word Finder居然收了很多牛津没有涵盖的搭配。 大家可以比较下achievement这个词的动词搭配,就比较清楚了。绝对值得转成mdx

下载地址
http://www.libgen.is/book/index.php?md5=DBB284083E55FC1238DB9B6EE2EF003E

转了个html,tag比较乱, 有兴趣的坛友可以试试能否正则处理下:
The word finder.zip (1.5 MB)