分享《牛津英语用法指南》第3版中英对照完善索引图片词典(首发)

好像表示当前词条未结束,续下页。猜的

但好像又不是 :upside_down_face:
看了书籍的各种序言、前言、说明,居然都没有对这个进行解释…

1 个赞

没想到您也看这本书

楼主的解读是对的,但Vim兄也没错。
综合一下就是答案,黑色三角形只有奇数页才有(纸书翻开的右下角)

2 个赞

直接定位二级编号应该是可行的,这是提取的所有词头:
keywords.zip (29.0 KB)

但需要转换一个格式(从附件 demo-input 格式转换为 demo-output 格式),求助python实现。

1 个赞

我感觉这个二级编号也解决不了全部的问题呢,是不是有什么我不懂的地方?

在我看来,图片词典要能定位的前提是得有页码信息,一个词头对应一个硬页码。您提供的二级词头只有标题,没有页码。如果只是将 epub 转制成2级定位文字词典(非图片词典)是可行的,因为它不需要硬页码。

请稍等,我给您提供一个带2级编号词头,但仍然不含页码,从 epub 中提取。

前一个回帖附件已经有从epub提取的2级编号词头,只是还不能直接用,需要转换格式(见前条回帖)。

之后确实需要如你所述,将这些2级编号与页码对应,这需要人工处理,但应该挺容易,只是有点烦。

对,我预计的抄词头页码的时间,每2页要抄1分钟,因为有1000页左右,预计500分钟。再加上校对和其它时间,可能就要20小时了。当然,也有可能不要那么久,但会很枯燥。

你来转换格式,我来人工校对页码。 :grinning:

您来校对恐怕不好,如果有更多的人分担倒是可以,10个人足够,每人100页。只抄数字(不抄任何文字)的话,会比较简单。希望有多一些人看到后报名。

后期我也会尝试对导航做一些优化,增强这个电子图片词典的使用价值。

该代码在提取 epub 中的标题数字时,会有两处识别错误,手工修改了

# -*- coding: utf-8 -*-

import re, pathlib
path = pathlib.Path('./')
fl_out = open("head_word_deep.txt","w", encoding="utf8")
pattern = r'<h[3|4] class="hh(\d+)".*?>(\d+)(.*?)</h[3|4]>'

h1 = ''
for p2f in path.glob("*.xhtml"):
    with open(p2f, encoding="utf8") as fl_in:
        text = fl_in.read()
    heads = re.findall(pattern, text)
    for head in heads:
        head_word = re.sub(r"<.*?>", "", head[2]).strip()
        if head[0] == '1':
            h1 = head[1]
            head_num = h1
        else:
            head_num = ".".join([h1,head[1]])
        head_txt = head_num + ' ' + head_word
        fl_out.write(head_txt + '\n')
fl_out.close()
1 个赞
1 abbreviated styles
1.1 advertisements and instructions
1.2 notes
1.3 commentaries
1.4 titles, notices etc
1.5 headlines
2 abbreviations and acronyms
2.1 punctuation
2.2 initial-letter abbreviations
2.3 acronyms
2.4 plurals
3 [be] able
4 about and on
5 about to
6 above and over
6.1 'higher than': above or over
6.2 'not directly over': above
6.3 'covering': over
6.4 measurements: above
6.5 ages, speeds, 'more than': over
6.6 books and papers
7 accept and agree
8 according to
9 across, over and through
9.1 on/to the other side of (line): across and over

extract_all_headwords_deep2.py (679 字节)
head_word_deep.txt (89.3 KB)

2 个赞

非常强大!!!

1 个赞

Python的确简单好用

已初步完成二级目录对应的页码(取一级主词条的页码作为二级子词条的页码,因此现有页码对应的后续第一个词条基本是准确的):
二级目录.zip (26.6 KB)

还需要进一步修订,比如:

0001
1.1 advertisements and instructions
1.2 notes
1.3 commentaries
1.4 titles, notices etc
1.5 headlines
0003
2.1 punctuation
2.2 initial-letter abbreviations
2.3 acronyms
2.4 plurals

修订为:

0001
1.1 advertisements and instructions
1.2 notes
0002
1.3 commentaries
1.4 titles, notices etc
1.5 headlines
0003
2.1 punctuation
2.2 initial-letter abbreviations
2.3 acronyms
0004
2.4 plurals

修订只需要在合适位置添加页码即可,只要满足如下即可:
1、4位数的页码(不足补0)
2、后续词条(可多行)为上述页码

特征询志愿者修订完善。

1 个赞

算我一个,先领取100页: 1-100

1 个赞

不复杂的话算我一个吧,最近刚好有点空

2 个赞

先发个demo吧,期待二级词条的修订工作有志愿者协助完成。

基于MdxSourceBuilder,创新:
1、(用户角度)词条导航的左右可直达页面前或后最近的主题,比翻实体书更为简便、快速和人性化。
2、(用户角度)输入"s+词条编号"即可直达最终页面,包括二级标题。
3、(制作者角度)灵活融合多种类型的额外词条,且更新维护超级简单。

OPEU3rdDemo

5 个赞

好极了,好极了

1 个赞

Oxford Practical English Usage 3rd.zip (55.7 KB)

具体说明参见:一键制作图片词典 MdxSourceBuilder - #79,来自 Vim

3 个赞