挑个小错:
这两应该统一一下,就是上面两个点距离大小区别。我查(英汉大2)的意思就是 1)天真的 2)幼稚的;轻信的。
有对这类词了解的多发言。
标签多,早就想精简些,但好多留着还有用。你挑的这个是最早加的标签还有部分没整理好。目前还没想好这类归到哪个标签里合理。
初步想法按书版式整理完会把例句释义归到英文例句的标签里,那样例句标点符号就合理了。
英文字用法指南.mdx (1.7 MB)
完成上册了?不容易。我看endnote兄挑出的问题大部分是单词中间多了一个空格。而 HDtiger的版本这类错误很少(当然有别的错误)。
这些空格是不是转换的时候误加上的?
当时往外摘这些网页标签后就这样,也许我没弄好。
刚开始时能得到的数据我都试过了,HDtiger后发的我不了解,因为我已着手弄这个了。
要是不要例句释义里的关键词用这个Convert PDF to HTML Free Online | Xodo
之所以用 @MicroX 上传的document.xml就是有例句释义关键词。其实https://convertio.co/zh/转的也行,数据保留也挺全。下图就是
但共有的问题都是一样,那个帖子里对这问题说的多,反正都要和书对一遍。我一开始没有大幅度的动(单词中间多了一个空格)因为怕误删还得修,对了一小半时总结了错误共有特征后几乎这些明显的问题都弄了。
不管这两哪个是正宗,感觉 这两+没有点的naive 应该扩容词头到同一个内容。
其实目前为止最大的工作量是楼主本人手动输入了原pdf缺失的很多内容。pdf质量很高,但各种转换成文本的引擎都不完美而且是个黑箱。与其无休止的比较和等待,更重要的是确定一个问题相对较少的版本,着手进行校正,在用的过程中大家一起来完善。
https://libgen.lc/ads.php?md5=834A0859FF9AE6CDDEA8AE986864CAF5
这个epub是ocr英文版而来的,错误较少,与英文版mdx分属不同源头,但排版不行。不知道是第一还是第二版,可能是第一版。
有完整的前言全文。读了HOW TO USE THIS BOOK部分,可知扩容版mdx词条最后加上的≈ 和 ≠ 是源于原书最后的索引内容。
queer词条
我有原书,电子版的我也分不太清。原书最后的索引内容我也弄了,没弄完。
原书里有括号,标签错了。
全文弄完了,下册没啥,词头就1018个,sanitary缺部分。
首层有更新,我做了个css样式一起更新。习惯自己的css更新mdx就好了。
下一步就集中纠错和修标签了。
英文字用法指南.mdx (1.7 MB)
我问一下哦,你们修改这本词典,是用脚本修改呢,还是打开源文件,用emeditor noteped++ 之类的修改呢。会涉及到批量操作吗?
换个CSS,检查是CSS的问题还是源文件的问题。ywzyf.css (2.5 KB)
先把问题简化:用3-5个词条内容试验,避免过分复杂。搞不定的话,把这个试验版的源文件+你想要的标签改动+改动后出现的问题发上来大家看看,是否会重现你所说问题。原来的css有嵌入字体的内容,先简化掉
喜欢这词典的可以下手了,我和纸质版的都校对过一遍了,问题还会有但不会很多。愿意扩展词头,改css就去做吧。
变为简体字的有标签吗?汉译有设置字体吗?会不会是受字体影响?
什么工具能够打开这么大的HTML看直观啊?
欧路词典各种莫名其妙连开发者自己都解决不了的问题多了去了
祝贺大功告成(至少是内容上)!
词典的意义在于去使用它。楼主完整读了一遍,收获还是自己的。
对于只收集不读书的松鼠党来说,其实这个完整版和最早的mdx两者对自己英语学习的作用差别不大,只不过心理上又“多占有了一本“完美版。
没那么夸张,25兆大小的HTML用着挺不错的,更不用说这么小的了。就这个词典我记得有人发的源文件27兆多也一样用。
HTML就当网页打开看就好了,还可以检索,我用着挺习惯的。