求 读者文摘 英文字用法指南.pdf

我建议别搞简体,原汁原味最好,本来繁体就繁体、本来简体就简体,避免转换过程可能出现的问题。英文那么难我们都在看了,繁体或简体中文又算得了什么?

1 个赞

我用你分享的繁体版也有一样的问题…

好像我电脑上有些字符无法显示…

出来.rar (3.4 MB)
换个css,和字体也放到一个文件夹里。

2 个赞

这是jw V0.2版繁体,我还没转呢,不知道用哪个工具妥当

估计直接用Word转换就可以了

我读书少,你可别骗我 :rofl:
word应该转不出带标签的文本的。
转出来了,换行也是个问题。
还是要费很多功夫。

这个还行
就是图片版PDF指定有错多,版式正常。
文字版的PDF文字错少版式多错的。

Acrobat:

JW:

convertio也不好

只能用文字版那个了,和快手的版本比就是有关键词,还不是很完善 :joy:
图片版的那个PDF我是ocr不出来啦 :joy:

那边用的好像也是convertio转的,这咋那么一样啊!!!英文例句关键词都是6,其它的也都是4.3.2数字标签。
2020-05-20_180226



没一个省心的~

下面是百度网盘的PDF转word(好像WPS的技术),然后Office2019的Word转出来,标签好像简单些。下了WPSpdf想试试转成Excel,无耐没有会员只能转5页,放弃了。感觉WPS的转换还可以,比在Word里面打开PDF转.docx的效果好太多

Arlin看看这个:
HTM.7z (2.1 MB)


还是算了,确实也有问题:

2020-05-20_204330

abby:
image
你的怎么跟acrobat这么像


每个都有问题
image

能够拆解是最好不过了,侧边的词头英文版是有的,中英合并时本来就只需要一个。

标签就用网站转的简化下和那边的几乎差不多,,,

这个就是转的文件去尾缀

英文字用法指南.html.css (17.4 MB)
https://forum.freemdict.com/t/topic/1902/40?u=w2k

不用,网站转完了没有版式错误那多事。

1 个赞

网站转完了不论一页两排还是像这本排版的(左词头右内容的)它都会给你按网页排版上下排好的。

1)https://www.pdftohtml.net/
2)Convertio — 文件转换器
3)@MicroX
三个转的我都试过了,一开始觉得掌上百科那边使用https://convertio.co/zh/转的。后来比对过是https://www.pdftohtml.net/。


Convert PDF to HTML Free Online | Xodo


最后细看了那边@J大的,他的相关词都是按在正文里出现的顺序排的


一开始还觉得相关词咋没了,看来他也是碰到了混到了正文里清理起来真的很费力 :joy:,他后来更新的应该直接从正文里后提取出来的(我猜的)。
想了想原数据既然没有太理想的可用,而@J大那边做的相关词挺有特色的(再有就是他弄得这个我真不会啊,我觉得很有特色),就用它改了。

已知的问题:1)跨页的有丢失 2)也有一分为二的 3)再有就是词头索引排序有颠倒的,数据在却查不到。
(补的缺后半页的是我自己在Convert PDF to HTML Free Online | Xodo

英文字用法指南-繁體版.rar (5.7 MB)
问题还很多,发上讨论如何完善。

1 个赞

我觉得pdf 转过来的文本质量很难有大的提升了。

下一步应该研究讨论最终mdx 内容呈现应该是什么样子的,标签结构是个什么架构。除了扫描版pdf 作为讨论基础,英文版mdx 的标签也应该是个重要的参考借鉴。

然后就是人工调整阶段了,有了上一步的统一规范,这里也许可以多人分工一起做。

1 个赞

也不都是,我那边下的The Synonym Finder, Revised Ed by Rodale J I .pdf一下午带弄不弄的就完事了。
2020-05-23_194533

FineReader转这样的还是不错的。

1 个赞