浏览器的开发工具网络面板里,在 POST 请求的链接上右键,选择 Copy as cURL,复制粘贴到下面的网页里,会给出模拟 POST 请求的 requests 代码。
不过能抓就行,使用无头浏览器更靠谱些。
浏览器的开发工具网络面板里,在 POST 请求的链接上右键,选择 Copy as cURL,复制粘贴到下面的网页里,会给出模拟 POST 请求的 requests 代码。
不过能抓就行,使用无头浏览器更靠谱些。
别慌,可能是别人被发现了,暗地里在抓的人太多了。
唉,我觉得凶多吉少。后台应该在调整
您好,鉴于目前情况,暂停分享账号,望谅解。
密码已经修改了。
各位技術高超,令人佩服。不過似乎毫無防人之心。
本壇哪一種人都有。把源碼貼出來,想爬的可以研究,想反爬的同樣可以研究。上辭的人讓德國人來看看這裡在研究何物就行。
為何不馬上封了你呢?反正你也爬不了多少,就先看你出何招,找到何漏洞,然後把漏洞一一封起來。最後可能還是得不到東西,衹是幫助網站堵上了漏洞。歡迎免費幫忙找安全漏洞。
想練習爬,最好別用一年的賬號,因為如果被封了,就損失慘重。弄個一個月的賬號練習,可能比較合適。
爬不成,當然還可以用人力。先把缺的字詞列出來,集合數十人之力,每人複製幾條。不過會有人響應嗎?我很懷疑。
抱歉!搞砸了。虽然提醒自己要稳妥,还是不够小心。
我再进去逛了一圈,没看到词头表。
是不是因为没注册,所以才看不到词头表呢?
因为楼上有注册的报告说看不到词头表了,所以我猜测:网站把词头表藏起来了。
假如真是这样,大概不是针对某个用户,而是通杀的防范措施。那么,楼上的一年用户应该仍然能检索资料,只是看不到词头表而已。
假如真是这样,这一招确实简单但毒辣。没有词头表,就不容易知道新词是什么。人工用单字加模糊检索,当然可以找出新词,但是时间成本太高。
假如用已知的mdx的词头去抓,就无法抓到新词条,而新词条是新版最有用的资料。
在没有词头的情况下,假如有人仍然想抓,而且有办法抓,可能就抓单字吧。
现有的基于光盘版的mdx,和图像版差异最大的地方就是单字。单字的资料改动得太多。
没隐藏,我这里还是正常查看的。
这个网站的拼音是机器标的。据说《汉语大词典》第二版的复词也没有标注拼音。
@amob
要看到词头的具体步骤是什么?也许我看漏了。
@last_idol
你说的是音序索引?
那大概只能弄文林的数据,或者从图像版索引ocr整理。
我推断如此。至少找到一两条已经更正错误的词条。
我猜测已经出过的新本,有一部分的数据已经收入网站。更新到第几册则不得而知。
当然,我手上没有第2版的纸本或图像,无法完全确定。
不注册进不去了。我不想注册,不查了。你有兴趣知道可以核对这一条:
文汇客户端,2019-03-27
百衲袍变金缕衣,《汉语大词典》“修订永远在路上”
比如,词条“一力”所引《新序》的作者是汉代刘向,第一版误作清代。词条“一寸”指光阴,但第一版援引的例句不恰当,用的是唐李峤《书》诗:“请君看入木,一寸乃非虚。”诗中指的是书法遒劲,入木一寸,与形容笔力雄健的“入木三分”构思类似,此处“一寸”仍是表长度的数量词,而不是指时间。
注册登录进入数据库点击词典封面
刚刚和能查词典网站的书友私下研究了一下,我现在的结论是:这个网站的数据不是第二版的数据,只是改了一部分词条。
看上面那篇文章:百衲袍变金缕衣,《汉语大词典》“修订永远在路上”,其中所提到的第二版的改动,这个网站多数没有。啊,不过【二十四史】确实改成表格数据了。
商人的思维大概是:假如用旧版的数据就能卖,根本就不上新版了,只做最低限度的改动。也许很明显,非常明显、让人丢脸的错误才改。
另外,大概重要的很多人会查的词条,如【二十四史】,就改一改,让用户有感?
想用第二版,还是只能等纸版出来。
所以用不了的人也不必觉得遗憾。
啊,不过单字的数据假如能弄出来,还是有用的。比光盘版的数据要好很多。
还有一点,虽然这个数据多数是第一版的数据,但是无疑是最完善的第一版。
PS:我怀疑官方真有人一直在看这个主题。所以大家就不要再公开讨论技术问题了,还在研究的话就通过私信讨论吧。
挺佩服坛友们,九月正式上线,提前五个月发现。
该平台的核心亮点之一,便是将《汉语大词典》(第一版+订补)收录其中。这一版本的《汉语大词典》基于精心重新排版的电子底本,具备以下显著优势:
1.以《汉语大词典》第一版纸质本为主体,数据准确精当;
2.增加订补本内容,补充部分条目和例句,内容更充实;
3.数据精加工,释义、书证、专名线、各种注释准确标注;
4.多字条目全面系统注音。
展望未来,汉语辞典总汇的内容与功能将持续扩展。在今年和明年,将有近100卷汉语语文辞书和专科辞书被集成到平台中,享有盛誉的《大辞海》(38卷)也将收录其中。
现在是55+3个类似字库
最近坛友分享了一个数据源,还没试过上限数量。
里面有很多词典,汉大的链接是140:
现在字体加密不是问题,字体、脚本、样式表和网页一起都抓下来就行了,只要确保网页用浏览器打开显示的文字和在线的时候一致。
不过没有其他的限制吗?限制每天可以看多少词条之类的?
这个数据源的词条还标注了拼音,查了几条没发现错误,汉语辞典总汇的拼音是机器标注的。