英汉百科翻译大词典 文本

这本词典有缺陷,就是有些词头和其他词条的末尾内容粘连了,且词头在查询时不显示,格式比较乱, 释义开头带 的词头大部分都查不到,看有没有高手可以改一下:
英汉百科fy大cd.mdx (12.8 MB)

7 个赞

补充:除了部分释义开头带Ⅰ的查不到,还有很多种其他的查不到释义的情况,想完全处理好会比较复杂,但数据比较有价值。

5 个赞

难道是epub转的吗,听形容好像啊

3 个赞

不是。。。。

2 个赞

pdf文字版早有流传,所以转成mdx问题很多

2 个赞

最好找一些对本书感兴趣的人分工合作,把纯文本从头到尾捋一遍,改错误、加标签。

1 个赞

刚才用文字版PDF转了几页为HTML,
处理一下,再制成mdx,还是可以的。
当然毛病还是有的。
标点,格式还是问题多多。

3 个赞

您转换这个费时间吗,如果很快的话,不如全转了再改,当然如果费时间的话就算了。

2 个赞

这样就比主楼的版本清楚多了

啊~~~
乱了,都乱了
这标签也太混乱了、
做了个半成品,
词头至少有几百个是误抓的。。。嗯没统计,反正误抓有许多。
暂时就这样,明天要出门了,没办法修改了。
我在网盘存了个备份,感兴趣可以去看看,
有PDF转HTML的源码,你可以一战
链接:https://pan.baidu.com/s/1lFrg6yJTdLJf1y0DudtRDQ?pwd=3hp2
提取码:3hp2

2 个赞

多谢哈!!!

呃,错误的地方大多,修正了巨量的错误,还有许多格式上的问题。
目前得到词条44725条,这里面或有错的。
离前言所说的5万词条还是有差距的,说明还有些词条没有拆出来。
如果发现有词头缺失,请留言。

**试阅:**FreeMdict Cloud


5 个赞

关注,恳请发布新改版!
刚注意“试阅”,已下载,谢谢!

1 个赞

2023-02-15

本次更新,词头基本上确定下来了,总共44880条。
存在问题:
1,和前言所说的5万词,差距是挺大的,估计那个纯文字版PDF存在错漏的地方。这个可以肯定的,今天就发现过有几处脱文。
2,格式问题。一是部分单词存在空格,量多,真不好处理,暂时放过。二是,标点符号问题。挺乱的。
3,标签错误。此最大问题在数字,正则匹配时候误匹配上了。
4,句子分行:大多行都是一行到底,在阅读上会多一些困难。
5,至于美化???????

链接见上面12楼。

5 个赞

查看了若干词,已改得相当不错!这部词典有它比较独特的价值和用处。

3 个赞

all-arounda全面发展的: It isn’t that Bruce is a poor scholar;he could be an excellent all-around one. 不是布鲁斯成不了好学者, 他完全可以成为一个极好的,全面发展的学者。

都在一行,可以考虑分行处理

存在问题还有许多。比如词头空格、数字

3 个赞

GoldenDict报错??
我这里正常啊。

bk.css (2.8 KB)

3 个赞

20230225
0 ,简简单单弄了个配色
1,拆分得新词条十几,总词条44897
2,清理中文句子中数字,字母等标签
3,修正部分词性等问题
4,中英文分行。
5,修正几个小标题
其它:
目前尚存在问题:1,标点符号。2,单词里面的空格,如c o p u l a,暂时没有好的处理方法。

纯文字版PDF已经发现有好几处脱文了!!不知谁制作的,也特没用心。
这些脱文不好发现!某些词头也会由于脱文而丢失。只能靠以后碰到时再改了。