牛津现代英汉双解V1 正式发布 (全中英切换版, 复查错误; 2020-05-28更新 END : )

可能是我英文水平还不够好,比如instrumental error我理解成了"乐器演奏的错误",实为“仪表误差”,我一般是看英文自己翻译,然后对照汉语译文看是否译的准确。母语词典的好处正如您所说,我也正在努力希望能早日摆脱对汉语的依赖

1 个赞

谢谢您提供的思路,但我不懂技术,且时间不充裕,等我考完研后再研究研究吧

1 个赞

比较了一下,感觉还是这个提取词性pos标签的版本更胜一筹。

请问楼主还有计划更新吗?

多出的一个小瑕疵是一些单词片段被放到了<tm>内。如词条

楼上cod9.zip里的三个txt就是tm、ot、pos三个标签对应的词,但是原数据存在一些问题,还没有完美处理这些标签。

如果有比较好的办法,我会把mdx和过程代码一起发出来。

2 个赞

在兄5-17的v0.2.3版本试验了一下,
对于 tm 标签,用正则
第一次(\<prx\>\<tm\>[-a-zA-Z. ]{1,32}?\<\/tm\>\<\/prx\>)( \<def\>\<uit\>) 替换为 \2\1
第二次(\<tm\>[-a-zA-Z. ]{1,32}?\<\/tm\>)(\<\/prx\>)( \<def\>\<uit\>)替换为 \2\3\<prx\>\1\<\/prx\>
貌似能解决很大一部分问题。
对于 pos, ot 标签,如果类似这么用正则貌似只能解决一部分问题,得另外想办法。

如果要完美解决,需要先把 tm, pos, ot 的内容放在单独的<prx>标签里,先隔开才好进行分行处理。现在很多地方是合用一个<prx>标签的,如affirmative
image
而且其中还时不时掺杂了 esp. 等内容。

另外,为了解决下述问题,
bought


可使用正则表达式(\<prx\>.{1,132}?\<\/prx\>)( \<def\>\<uit\>)(\<en\> {0,3}of)替换为\2\1\3

2 个赞

COD9-20200826.mdx (11.3 MB)
基于atauzki v0.2.3版,继续尝试修正 tm, pos, ot等标签位置不正确的问题。

不知道到底解决了多少?

还是使用正则,解决<ot>串行问题的表达式(\<\/pos>)( {0,2}esp\. {0,2}\<ot\>[-a-zA-Z. ]{1,16}?\<\/ot\>)(\<\/prx\> \<def\>\<uit\>)(\<en\>) 替换为 \1\3\<prx\>\2\<\/prx\>\4

4 个赞

可以进一步扩大范围,正则(\<\/pos>)( {0,2}\<ot\>.*\<\/ot\>)(\<\/prx\> \<def\>\<uit\>)(\<en\>)仍然替换为\1\3\<prx\>\2\<\/prx\>\4


此外,由于汉译已经包括在标签<zh>内了,<cn>标签应该没用了吧?可以全文去除掉?

1 个赞

自由分享,非常感谢!

2 个赞

持续关注好久,看看还有没有更新

2 个赞

楼主太牛逼了,谢谢分享

3 个赞

请问 endnote,你这个mdx对应哪个css文件? 你的排版与365楼的版本很相似,在没有见到你的CSS文件前,还是365楼Vim的作品的最好,词条数也最多95108:
Concise Oxford English-Chinese Dictionary 9th

牛津现代英汉双解词典 9th

  1. 基于hijack的COD.V1.64924-新结构-20200528和atauzki的python处理脚本制作。

  2. 修订错误:laudable词条的speech拼写错误;howler词条的S.American翻译错误。

  3. 自定义醒目的CSS。

Original mdx by hijack@Freemdict 2020-05-28

Repacked by VimVim@Freemdict 2020-06-16

而楼主Freemdict 2020-05-28的版本且不说带括号的排版方式是否被大多数人接受,但就查单词a 时就发现不能跳转,在下面an 处,Vim和你的版本都修正了,词条也多了很多,但不知道多了什么。
Usage 用法说明
See Usage Note at an.
见 AN 的用法注释。

3 个赞

比较了一下,endnote最后给出的做出了一些修改,因为修改过后标签有变化,所以Vim在528楼给出的版本CSS就不起作用了,有效词条总数应该没有区别。

2 个赞

正解。我css对应的是上面 atauzki的python处理脚本制作的版本,他的处理我觉得很好。不适用于原版本

词典文本内容没有变化,这个mdx的文本质量堪称完美,感谢楼主 @hijack

2 个赞

补个配套的自用css
cod.css (5.6 KB)

3 个赞

赞!谢谢你们的辛苦付出!

谢谢分享!!这个应该重命名成cod.css吧,否则样式出不来

4 个赞

抱歉挖坟。楼主是否可以看看cod12双解?或者看看我的方法是否正确。我在模拟器里打开词典,海笛3.6.8版,只能查两个词。保存电脑内存镜像为文件,转换为文本到一个文件,搜索文本。查到词典编码是utf16le, 按此格式转换内存镜像文件所有utf16le编码的文本。找出符合词条特征的文本。这样,一共得到两万余词条文本,不带HTML格式。这个数量不全。我得到的初步结论是软件没有一次性装入所有词条。或者是哪里没做对?cod9的app是否一次性装入所有词条?如能不吝指点,不胜感激。

2 个赞

挖的好,一起学习!

看来只能自己摸索了,或用笨办法获得中文。 一些技术,起先不甚了解,通过持续探索,总有收获。

模拟器还能发下吗?全网找不到。