中英理科专业词典・新增『天文学名词「第三版」』·甲辰年(龙)正月初二「2024-02-11」

辛苦了,这个做好了查询可太方便了

1 个赞

物理词头提取完成,卿,出手否?

楼主辛苦了,可惜很难下载百度。

说句打击人的话,不要浪费时间去做什么OCR,弄个图片版看看得了。真正搞数理化研究的人,英文看完就完了,没人要去查这个。

2 个赞

站长要亲自出手?楼主可以试试 MUSE|文件传输 不限速 高品质 (musetransfer.com),不注册也能用,速度很快。

临时好帮手,不过不注册只有7天有效期,已更新阿里云盘

可以用微信登录。
阿里盘要注册才能下载,站长可能下不了。

1 个赞

好的,Muse已更新

1 个赞

我很好奇,物理mdx制作专用.pdf 这个是怎么来的?

在61楼,有人分享了个pdf文件,对这个pdf文件进行了切割,于此得到

可以帮忙上传一下那个 PDF 文件到 muse 吗?想看看原始文件,多谢了。

在此记录一下探索这个矢量 PDF 的一些有用的东西:

  1. PDF 规范,p.140 很有用
    https://opensource.adobe.com/dc-acrobat-sdk-docs/standards/pdfstandards/pdf/PDF32000_2008.pdf
  2. Python 读取 PDF
    Welcome to pdfminer.six’s documentation! — pdfminer.six __VERSION__ documentation
2 个赞

https://musetransfer.com/s/u21lxfmv1(有效期至8月3日)|密码:5901|【Muse】你有一份文件待查收,请点击链接获取文件

1 个赞

原版的文字层已经废了,可能是为了防盗作,这种矢量版的,不光生成图片好用,像切词切图这些活都可以自动化完成

使用 Vim 大侠的开源工具生成了一个整页版,mdd 没变。
物理学大辞典(图像版)v.mdx (12.4 MB)
mdd (461 MB):
https://musetransfer.com/s/yabnufiry(有效期至8月27日)|密码:0220|【Muse】《物理学大辞典(图像版)》文件待查收,请点击链接获取文件

PS:新 pdf 用补丁丁导不出图片,可能得打印成一个新 pdf 再导出……

3 个赞

试用了一下,整页的页面大太了,电脑上想要看清,窗口得拉很大,一个页面有很多词,很难快速找到想要的词,建义分页处理。
当同一个词有多处对应的时候,非常不友好,不知道自已要找的词在哪里,(例:S矩阵)
有些词头属于行内,未作区分,干扰较大,难以快速找到
另外,封面、前言、凡例、目录、正文第1页,里面的图片失效

有很多时候,就是想快速查录某个中文词的英文写法,或某个英文单词的中文含义,需尽量简明,图片在记不清某概念的时候作辅助之用。

列出了分属的大节标题、小节标题,分了行内词头和正式词头,都是为了快速区分用,后面数理化全部弄完后,当将这三部融合在一起,彼此也能很好区分,互不干扰。另外,对于行内词头,是可到它所属的主词头的,应给予其所属主词头的提示。

上面这此是在提取词头的一些设想

导出图片的问题,可以试试pdftoppm命令

poppler套件里的

失误失误,后来做了修改,忘了替换。80楼已经更新了。

1 个赞

您好,试用了一下,整页的页面还是大太了,是不是还没有更新上传呢

昨天制作得确实有些仓促,有的地方没考虑到。准备重新制作 mdx 和 mdd ,尽量实现楼主的想法。
有想学习图片词典制作或觉得我这个稀烂的坛友可以出手了 :joy:

行内词条共741条,都没有直接注明所属词条,要一一查找确认。

昨晚把专用 pdf 用虚拟打印生成了一个图片pdf,3.9GB。结果各软件都打不开,说是文件损坏。后来又生成一个只有10页的pdf,是好的。今晚再来少打印一点试试,500页?
不装 python 看来是寸步难行了。

这两天空闲比较少,可能得多等几日。