《汉语大词典》(网络版 V.2)的特色(节选)

浏览器的开发工具网络面板里,在 POST 请求的链接上右键,选择 Copy as cURL,复制粘贴到下面的网页里,会给出模拟 POST 请求的 requests 代码。

不过能抓就行,使用无头浏览器更靠谱些

1 个赞

别慌,可能是别人被发现了,暗地里在抓的人太多了。 :smile:

唉,我觉得凶多吉少。后台应该在调整

您好,鉴于目前情况,暂停分享账号,望谅解。

2 个赞

密码已经修改了。

各位技術高超,令人佩服。不過似乎毫無防人之心。

本壇哪一種人都有。把源碼貼出來,想爬的可以研究,想反爬的同樣可以研究。上辭的人讓德國人來看看這裡在研究何物就行。

為何不馬上封了你呢?反正你也爬不了多少,就先看你出何招,找到何漏洞,然後把漏洞一一封起來。最後可能還是得不到東西,衹是幫助網站堵上了漏洞。歡迎免費幫忙找安全漏洞。

想練習爬,最好別用一年的賬號,因為如果被封了,就損失慘重。弄個一個月的賬號練習,可能比較合適。

爬不成,當然還可以用人力。先把缺的字詞列出來,集合數十人之力,每人複製幾條。不過會有人響應嗎?我很懷疑。

抱歉!搞砸了。虽然提醒自己要稳妥,还是不够小心。

2 个赞

我再进去逛了一圈,没看到词头表。

是不是因为没注册,所以才看不到词头表呢?

因为楼上有注册的报告说看不到词头表了,所以我猜测:网站把词头表藏起来了。

假如真是这样,大概不是针对某个用户,而是通杀的防范措施。那么,楼上的一年用户应该仍然能检索资料,只是看不到词头表而已。

假如真是这样,这一招确实简单但毒辣。没有词头表,就不容易知道新词是什么。人工用单字加模糊检索,当然可以找出新词,但是时间成本太高。

假如用已知的mdx的词头去抓,就无法抓到新词条,而新词条是新版最有用的资料。

在没有词头的情况下,假如有人仍然想抓,而且有办法抓,可能就抓单字吧。

现有的基于光盘版的mdx,和图像版差异最大的地方就是单字。单字的资料改动得太多。

没隐藏,我这里还是正常查看的。

1 个赞

这个网站的拼音是机器标的。据说《汉语大词典》第二版的复词也没有标注拼音。

1 个赞

@amob
要看到词头的具体步骤是什么?也许我看漏了。

@last_idol
你说的是音序索引?
那大概只能弄文林的数据,或者从图像版索引ocr整理。

1 个赞

我推断如此。至少找到一两条已经更正错误的词条。

我猜测已经出过的新本,有一部分的数据已经收入网站。更新到第几册则不得而知。

当然,我手上没有第2版的纸本或图像,无法完全确定。

不注册进不去了。我不想注册,不查了。你有兴趣知道可以核对这一条:
文汇客户端,2019-03-27
百衲袍变金缕衣,《汉语大词典》“修订永远在路上”

比如,词条“一力”所引《新序》的作者是汉代刘向,第一版误作清代。词条“一寸”指光阴,但第一版援引的例句不恰当,用的是唐李峤《书》诗:“请君看入木,一寸乃非虚。”诗中指的是书法遒劲,入木一寸,与形容笔力雄健的“入木三分”构思类似,此处“一寸”仍是表长度的数量词,而不是指时间。

https://wenhui.whb.cn/third/baidu/201903/27/252290.html

注册登录进入数据库点击词典封面

1 个赞

刚刚和能查词典网站的书友私下研究了一下,我现在的结论是:这个网站的数据不是第二版的数据,只是改了一部分词条。

看上面那篇文章:百衲袍变金缕衣,《汉语大词典》“修订永远在路上”,其中所提到的第二版的改动,这个网站多数没有。啊,不过【二十四史】确实改成表格数据了。

商人的思维大概是:假如用旧版的数据就能卖,根本就不上新版了,只做最低限度的改动。也许很明显,非常明显、让人丢脸的错误才改。

另外,大概重要的很多人会查的词条,如【二十四史】,就改一改,让用户有感?

想用第二版,还是只能等纸版出来。

所以用不了的人也不必觉得遗憾。

啊,不过单字的数据假如能弄出来,还是有用的。比光盘版的数据要好很多。

还有一点,虽然这个数据多数是第一版的数据,但是无疑是最完善的第一版。

PS:我怀疑官方真有人一直在看这个主题。所以大家就不要再公开讨论技术问题了,还在研究的话就通过私信讨论吧。

1 个赞

挺佩服坛友们,九月正式上线,提前五个月发现。 :smile:

资讯丨汉语辞典总汇正式在欧洲上线 (qq.com)

该平台的核心亮点之一,便是将《汉语大词典》(第一版+订补)收录其中。这一版本的《汉语大词典》基于精心重新排版的电子底本,具备以下显著优势:

1.以《汉语大词典》第一版纸质本为主体,数据准确精当;

2.增加订补本内容,补充部分条目和例句,内容更充实;

3.数据精加工,释义、书证、专名线、各种注释准确标注;

4.多字条目全面系统注音。

展望未来,汉语辞典总汇的内容与功能将持续扩展。在今年和明年,将有近100卷汉语语文辞书和专科辞书被集成到平台中,享有盛誉的《大辞海》(38卷)也将收录其中。

2 个赞

现在是55+3个类似字库



codes.txt.rar (6.6 MB)
我把封面撸下来了
“展望未来,汉语辞典总汇的内容与功能将持续扩展。在今年和明年,将有近100卷汉语语文辞书和专科辞书被集成到平台中,享有盛誉的《大辞海》(38卷)也将收录其中。” :rofl:



今天就是9月15号,首发特惠最后一天 :rofl:

最近坛友分享了一个数据源,还没试过上限数量。

  1. 缺词头列表。
    • 旧 mdx 导出词头(会不全,但大部分会包括)
    • hanyucidian.org 的词头数据(可恶当时没保存)。
  2. 缺字体解密。

里面有很多词典,汉大的链接是140:

https://www.cihai.com.cn/judianDetail?bookId=140&q=兀

现在字体加密不是问题,字体、脚本、样式表和网页一起都抓下来就行了,只要确保网页用浏览器打开显示的文字和在线的时候一致。

不过没有其他的限制吗?限制每天可以看多少词条之类的?

这个数据源的词条还标注了拼音,查了几条没发现错误,汉语辞典总汇的拼音是机器标注的。

1 个赞