求抓汉字全息资源系统

汉字全息资源系统
全站用js,读不懂。用浏览器渲染,竟然也抓不到东西。请大神出手!!!

from playwright.sync_api import sync_playwright as playwright
with playwright() as pw:
    webkit = pw.webkit.launch(headless=False)
    context = webkit.new_context()  # 需要创建一个 context
    page = context.new_page()  # 创建一个新的页面
    page.goto("https://qxk.bnu.edu.cn/#/")
    page.click("[placeholder=\"请输入整字,如“汉”\"]")
    page.fill("[placeholder=\"请输入整字,如“汉”\"]", "走")
    with page.expect_popup() as popup_info:
        page.click("a:has-text(\"检索\")")
    page1 = popup_info.value
    print(page1.content())
    webkit.close()
1 个赞

好了,可以抓了,很少用渲染,忘了加延时 :joy:多谢有你真好!

3 个赞

感谢Sxingbai出手,希望早日完工,造福书友。这个网站少数汉字是有影音的,可以用来教学,很好的资源。

1 个赞

都是一些力气活,刚把网页分析完。不打算抓那么多,只抓七八千常用字。

2 个赞

老大,这个也非常不错,https://ht.ac.uk/

汗颜,我是外语盲……

系统已经改版,现在文字、图片都保护起来了,唉唉。以下是包含了篆隶万象名义、尔雅、方言、广韵、洪武正韵、集韵、康熙字典、佩觽、类篇、释名、说文解字、五经文字、玉篇、玉篇残卷、正字通文本内容的json文件。

qxk.tar.gz (18.5 MB)

另外这里也有部分资源,质量稍微好一点。

https://github.com/bgc2017/chtxt/tree/main/m.字書訓詁

6 个赞

多谢!这几天有点忙,还没顾上抓,怎么网站又改版了? :joy:

1 个赞

说不定管理员里头有来这里潜水的 :joy:
如果是这样,还请睁只眼闭只眼啊

感觉还在建设过程中,过段时间再看有没有新增内容

不过这类系统难在维护,毕竟申请的经费在通过验收后可能就没后续了。希望这个系统可以长期维护充实更新。
国外的类似系统,历史都是源远流长的。比如这个 since 1965
Historical Thesaurus :: About the Thesaurus (ht.ac.uk)

1 个赞

刚才看了一下, okayer兄所说的改版,应该是相对于能抓取json的时候。现在用js,直接抓取已经很困难了,只能用浏览器渲染。
但okayer兄上传的数据已经是该网站公开部分的精华了,其它部分如形音用码等价值都不太大。原来对用这一部分的语料内容感兴趣,后来想想,这个到处都是了。
另外okayer兄说的图片其实都还可以抓,如果需要,隔天补上。

經籍䉵詁.txt (6.0 MB)
费了半天劲总算下载了。

1 个赞

简单核对了一些文本,这些书各有各的问题,有些缺少大量内容(洪武正韵),有些页码信息实际无用(绝大多数),有些全书原次序无法恢复(绝大多数),不知什么原因。另外其中类篇跟国学大师的类篇似乎同源,但这个里面的页码没有上下栏第几字这些信息,国学大师的确有,不知何故。在此顺道求高人抓取一下国学大师的页码信息。

补充一些信息:网站实际有而数据里面缺少的有八种:干禄字书、龙龛手鉴、复古编、中原音韵、通用规范汉字字典全无,原本玉篇、篆隶万象名义、五经文字里面只有一种版本,网站实际还有其他版本。
里面较好的可以用的是:尔雅、方言、释名、玉篇、类篇、广韵、集韵、康熙字典。
其他顺序都不对,页码基本也都没用。
如果有朋友要制作电子书或词典,可以参考,以免浪费时间。

1 个赞

感谢okayer兄提供的资源。

看了一下“汉字全息资源系统”里的《康熙字典》,发现嵌入了许多图像字,因为图像字没有和文字在一起,所以不知道这些图像字是什么。这等于一个有大量缺字的文本,用处不大。

但是github的资源里有好东西啊!

才看了第一个,就发现一个有三种图像本页码的《康熙字典》索引,其中一个是汉语大词典出版社的标点本,这个标点本的索引大有用处。实际上有了这个字头索引,就可以制作mdict图像本了。

[康熙字典索引
https://github.com/bgc2017/chtxt/blob/main/m.字書訓詁/z1.康熙字典索引.txt

2 个赞

兄台不必指望国学大师这个资料了,部分资料有保护。你可以看看佛爷抓的版本:

国学大师字典

佛爷都没办法抓全,我辈更无可奈何。把KR1j0029的资料一卷一卷存下来,自己再动手整理一下吧。天下没有白吃的午餐。

KR1j0029 類篇-宋-司馬光 (WYG)
http://kanripo.org/ed/KR1j0029/WYG

你整理了上面日本人整理的四库本《类篇》后,可以自己设法和宋本《类篇》对照起来:

类篇.四十五卷.宋.司马光.等撰.景钞宋刊大字本

不下一点苦功,岂能从西天取回真经。

1 个赞

龙龛手鉴当时还没有文本,其他只取了自己需要的。想做字典建议集成一下,效果非常好,比国学大师方便,而且可以互相校对。

《集韵》文本把“北道名禾主人”中的“北”误作“此”,因为多本字书对照,这种错误不会造成困扰。

你可以再核对下,我说的那几个质量都很好啊,缺字并不多,应该是没有图片字,未编码字是用造字符号示意的。主要的问题在于录入者过分想要忠实于底本字形,很多常见字都用了生僻异写(不是异体)。再就是不少格式内容空缺,也不算大问题。日本人做的那个系列的格式体例不纯,我感觉是还不如这个好。

要是不打算严格维持原书格局,只想查字的话可用的部分会多不少,我是打算每本都分开而且至少核对字头的,顺序错乱基本就等于废了。另,你看下下载下来的洪武正韵是不是没有正这个字?字头应该是少了二三千。现在网站里倒并不缺这些字。

1 个赞

请问您有这个的资源吗

网站页面好像又变了,而且没有加密保护。

1 个赞