求助制作词典

各位前辈,能不能援手制作一下孙复初的新英汉科技词典。前两年求助过一次,也没响应 :smiley: :smiley: :smiley:,再次求助
PDF文件:https://www.aliyundrive.com/s/crZNtPPPkiA
俺只会做点机械性工作,不会制作。需要俺干点啥,随便吩咐。
大谢了

2 个赞

词典制作的难点恰恰是整理词头这个机械的工作。只要能整理出词条,制作mdx词典就是分分钟的事。

所谓词条,就是类似如下:
词条 页码
a 1
b 1
c 2
d 3
……

3 个赞

vim大
每页的第一和最后一个单词,还是每个单词都得列出来。
每页首尾单词或者每页首个单词的话,几千个,还可以尝试一下,要列出全部单词,那 :grinning:,到死不知道弄完 :rofl:

若有个现成的相似词典,那么就可以做出一个可用的模糊查询mdx。
但这是专业词典,相似词典缺。

所以说很难。有高人求助于工具,如OCR等,但总归还是麻烦,难。

科技名词,如果搞不到词典,直接用术语在线的服务吧,词条是由各学科专家审定的。

收录的学科清单:

1 个赞

谢各位前辈回复 :smiley: :smiley: :smiley:

McGraw-Hill 英英科技大词典

1.找一本大一点的英英或英汉科技词典。导出词头,把词头导入Excel。按顺序排列。

2.按照你要做的词典,把每一页第一个单词加上该页的页码。

3.中间空的没有页码的地方,可以用程式填上。用人工做,在Excel中用鼠标拉一下,也不会太难。

4.假如发现你要的词典里有独特的你想参考的词,人工增补这些词和页码。

做法可以参考此帖:

《大英百科全书中文版》部分词条索引(Excel格式)

至少做完这个,把索引发上来,再求助吧。

建议在帖子标题里加入词典名字。这种“求助制作词典”的标题,帖子沉下去后,就不会再有人关注了。

3 个赞

看了一下,建议,
1,先处理一下,切边。尽量做到统一。
2,分栏。用finereader 分栏就行,分成两栏。
用finereader 进行OCR,保存成HTML。
3,进行提取词头。

可行性比较大


新英汉科学技术词典 第3页.7z (3.0 KB)

这么整理下来,每页都是一个独立的文件,词头提取出来后,可以每页保存成一个文件。方便后期处理。

2 个赞

:laughing:咋个成这样的,表示崇拜 :+1: :+1: :+1:

办法总比困难多 :+1:

一点点小理解:
制作mdx需要词头→做完的词头需要找到在PDF那一页→用excel的话,可以通过每页第一个单词确定词头所在页数。
那么是不是可以这样理解:
1.我先把PDF每页第一个单词打出来,对应好页码。
2再找一个单词列表,用lookup函数匹配对应的页码。之后咋整我就啥也不懂了 :smiley:
有一个小想法,是不是可以省略掉第二步:
我不管单词列表,在词典软件用单词框输入的单词作为查找对象,直接像excel那样匹配排序小于等于这个单词的单词,也就是让他自己去找每页第一个单词,排序小于这个单词,就上一页,大于这个单词小于下一页第一个单词,就定位这一页。
瞎琢磨的,不知道是不是可行 :smiley: :smiley: :smiley: :smiley:

我现在只能干俩事:
把每一页第一个单词列出了,写好页码;
如果有单词列表,可以用lookup对应相应的页码。
别的,么子也不会了 :laughing: :laughing: :laughing:


建议选择 为每页创建一个单独文件。
因为是分栏,生成文件比较多,一个页面就有两个文件,后期操作需要重新命名。有点麻烦。当然麻烦也是有好处的,直接精确到左右栏。

像我刚才 用的是图片,每页一个图片。选这个 为每个输入文件生成一个单独文件,就比较方便。但只到页,没有到栏。

哥,用的哪个软件,finereader?

了解了,abbyy

1 个赞

楼主发的好像是2009老版,还有个2013年的《精编新英汉科学技术词典》,应该用后者强些吧。

你说的这个新版是健身房出来的瘦身版,要是没记错的话完整体格的那个在孔老二那让快手牛牛拿走了