安娜档案馆(Anna's Archive)新增几百万中文书

这个说不准吧。我就碰过某书只有部分加密的pdg。

我用老马达pdgtopic,就碰到一书有几种不同格式的pdg,部分加密的也有。目的大概是为了干扰想破解的人。

没必要全部加密吧?就留一些给你试读打广告。

没加密转档为什么有时会出错?可能出错,但是要有合理的解释。

这里的加密,是指 zip 档加密。
zip 加密解开后,出来的 pdg 还有加密?
看来是我见识少了。

安娜用的档缺失的页面是 PDG 加密的,我确认过了。建议多找几家 TG 机器人,和安娜不是同一个来源,同一个 SSID 对应多个文件,有的缺页,有的完整。

1 Like

strnghrs
PDG科普篇
作者:马健

马健就是大名鼎鼎的老马软件的开发者。没看过这篇博文的可以看一看。其中有关于加密pdg的讨论。

多数pdg是加密的,不过pdg2pic能处理已经破解的常见加密格式。

我所谓的“加密”,特指免费版pdg2pic无法破解的新型加密格式。

这种新型加密格式,需要买老马的付费软件才能破解,免费版不行。

破解与反破解是一种军备竞赛。有一天,破解者可能觉得算了,不好玩,不玩了,那么还没破解的加密格式就会留在那里挡路。

《信息网络辞典》
加密 encryption
计算机安全中,将数据转换为不可识别的格式,这样原始数据不能直接获得,只能通过解密过程才能得到。

老马的软件不开源,没什么用,安娜用不了。

安娜馆也许能做的是:

1.用程式批量检查有新型加密格式的pdg,把这类问题书先标记为有缺陷,提醒人们不要下载。

2.假如书库中没有同一书的别本,则用别的来源的数据补上有缺陷的书。

zip 有加密的应该有解开。

这里还有一篇博文。

PDG转图像、PDF的若干方法
作者:马健
发布:2006.05.26
更新:2008.08.24

补充说明:此文成文较早,其中对Pdg2Pic、FreePic2Pdf的描述早已过时,请参照最新版Pdg2Pic、FreePic2Pdf的使用说明。

豆瓣转载《strnghrs:PDG励志篇》:
https://www.douban.com/group/topic/5299078/?_i=3169318wnGlX1l

strnghrs:PDG励志篇

本帖所推荐的园地原创软件均注明是免费还是收费,需要收费的也仅能在园地用虚拟论坛币购买。如果您看到有用RMB出售软件的帖子,毫无疑问属于假冒伪劣,请及时向软件原作者举报。

PDG文件检查
推荐软件:PdgThumbViewer(免费)
推荐理由:既可以用缩略图方式进行“所见即所得”的人工检查,也可以自动批量检查;能查出缺页、坏页、黑线页等,尤其是黑线页检查功能,到目前为止仍然是独一无二的;采用与Pdg2Pic、UnicornViewer相同的PDG解码内核,只要它报告正常的文件,就可以用这两个软件打开。
补充说明:只有真正的外行或白痴,才会对下载到的PDG充满绝对的自信。对于一般正常人,最好还是用软件检查一下到手的PDG是否完好,以免将来后悔。
PDG文件阅读
推荐软件:如果是下载后抽阅图像版PDG,用免费的ComicsViewer应该够了;如果需要整本阅读图像版PDG,推荐用免费版的UnicornViewer;如果需要阅读文字版PDG,尤其是文字PDG(通常是正文页)、图像PDG(通常是附属页)混杂的书,推荐用收费的高版本UnicornViewer。

即使想买老马软件的收费版,也只能用读书园地的虚拟币,好像不能用真的钱买到。

老马今年升级过PdgThumbViewer。

2024.02.16 软件更新公告
原创软件区升级PdgThumbViewer

老马的原创空间搬家通告(内附软件下载地址)

里面有百度盘和mediafire下载链接。

我无法用百度盘,不过看了一下目录,里面是有2024年的PdgThumbViewer的。

pdg2pic是2023年5月的。

Mediafire没有这些最新的软件,而且在我这里好像还被封锁了,呈灰色。

没用过老马软件的,假如你能下载,去下载一些学用吧。

新型的pdg加密格式可能不止一种。不能识别的pdg也可能是旧的加密格式另外再加密,密上加密。

500万个文件,一个人所看过的必然只是很小的一部分。老马未必能解密所有加密格式。

我觉得你可以用PdgThumbViewer检测一下你所见过的无法识别的加密格式。

假如PdgThumbViewer表示能读,就表示老马已经能解密。

那么,不妨和老马联络,交流一下。

老马做这个看来不是为了钱。

安娜馆也可能愿意付费购买源码。

我向安娜反馈了加密的问题。我不认识老马,从没有联系过。

现在开始看到一些变成灰色、打叉的书了。

500万个文件剔除转换错误的书后,不知道还剩下多少能用的?

还有一些书有目无书,例如:

《汉语修辞艺术大辞典》
missing

点一下会报告找不到。

Not found
“md5:6a128b496682917a70d0b899fc1403da” was not found in our database.

还能下载到能用的完整的专业书的,真要感恩啊。

假如收的是重要的专业书,应该从头到尾检查一下。现在发现书有问题,也许还能找到别的数据源。

假如因循拖延,等到共享书籍的黑铁时代到来后,就什么都没有了。

安娜馆看来已经能检测到没正确转换的pdg,而且能统计出有几页有问题。

汉语大字典考正
四川辞书出版社, 2001

“306 affected pages”
306页有问题,有点多。

说明有点含糊不清。

有特殊加密的pdg,假如还没转换,还可以用老马软件读看看,看是否能读。

已经转换成pdf后,就无可救药了吧?还有什么“trusted, updated software”可以看?

觉得这数字不准。
像你之前提的远流活用中文大辞典,
有两种不同大小的文件: 723.8MB 和 706.9MB,
都是显示 “370 affected pages”。
不過 723.8MB 的有 2007 頁,
706.9MB 的只有 1637 頁。

残缺页的数量准不准?我不知道,这要看安娜馆怎样检测,怎样记录。

这三个文件的SS号是一样的,只是md5不一样,所以变成三个记录。

假如安娜馆是按ss号来记录残缺页的,可能会导致三个文件都被标记为有同样的残缺页。

A

1.Chinese [zh], .pdf, :rocket:/duxiu, 706.9MB, :green_book: Book (unknown), 《远流活用中文大辞典》_13344412
远流活用中文大辞典 :mag:
远流出版事业股份有限公司, 2008

2.Chinese [zh], .pdf, :rocket:/duxiu, 706.9MB, :green_book: Book (unknown), 远流活用中文大辞典_13344412
远流活用中文大辞典 :mag:
远流出版事业股份有限公司, 2008

3.Chinese [zh], .pdf, :rocket:/duxiu, 723.8MB, :green_book: Book (unknown), 13344412
远流活用中文大辞典 :mag:
远流出版事业股份有限公司, 2008
陈鐡君主编

B

《远流活用成语大辞典》是同样的情况,同样ss号不同md5的文件,一样标注为“215页有问题”。

远流活用成语大辞典 :mag:
远流出版事业股份有限公司, 2004
陈铁君主编
Not all pages could be converted to PDF (“215 affected pages”)

假如安娜馆只检测已知的某种加密格式的pdg,那么,也可能漏掉别的无法转换的加密格式。

或者没考虑别的转换错误因素。因为转换不成功,也许还可能有别的未知因素。

有一点大概可以肯定?——标记为有问题的pdf,大概真有问题,虽然具体的问题页数未必准确。

能肯定吗?除非彻底检查了,否则还是不知道。

转换失败的文件,你再找下 TG 的机器人就行了,论坛推荐的那个,同一个 SSID 有可能对应多个不同的文件,TG 的源有可能和安娜不一样,而且还提供原始的 PDG 压缩包,你可以自行下载,缺点就是有可能文件不存在,需要重新上传。

书籍正在排队上传,根据文件大小及申请人数预计5分钟到24小时,请耐心等待。成功上传后会有消息通知,若超过24小时没有消息,说明上传失败,请从其它渠道寻找此书。

TG是Telegram电报软件吧?需要手机,我无法使用。

谢谢指点。我找书向来随缘,看到就收,没有就算了。

1 Like

缺 370 页是这样算出来的。
total pages 2006
pdf pages 1636 (不计最一后页转档程式报告)
2006 - 1636 = 370
明明最后也有判断 pdf 有没有缺页,
可是没有检查出来。

1 Like

安娜可能确实缺钱,作为一个索引总站不错,下载速度苦不堪言,可能充钱能好点。现在似乎有意隐藏其他出处的下载链接。

安娜相比直接用 zlibrary 的几个问题:

  1. 速度(可能充钱能解决);
  2. 无法评论,评论中有些对书籍本身质量的看法;
  3. 检索体验过于简陋
1 Like

刚才下了几个文件,速度还行.采取了分流策略. 国内网络.

速度还冲到了1 M, 有时候速度也不理想. 找准时机有点难…

截屏2024-05-19 13.34.59