求抓汉字全息资源系统

sxingbai · 2021 年9 月 25 日 03:43

汉字全息资源系统
全站用js，读不懂。用浏览器渲染，竟然也抓不到东西。请大神出手！！！

from playwright.sync_api import sync_playwright as playwright
with playwright() as pw:
    webkit = pw.webkit.launch(headless=False)
    context = webkit.new_context()  # 需要创建一个 context
    page = context.new_page()  # 创建一个新的页面
    page.goto("https://qxk.bnu.edu.cn/#/")
    page.click("[placeholder=\"请输入整字，如“汉”\"]")
    page.fill("[placeholder=\"请输入整字，如“汉”\"]", "走")
    with page.expect_popup() as popup_info:
        page.click("a:has-text(\"检索\")")
    page1 = popup_info.value
    print(page1.content())
    webkit.close()

sxingbai · 2021 年9 月 25 日 03:57

好了，可以抓了，很少用渲染，忘了加延时多谢有你真好！

有你真好 · 2021 年9 月 25 日 10:36

感谢Sxingbai出手，希望早日完工，造福书友。这个网站少数汉字是有影音的，可以用来教学，很好的资源。

sxingbai · 2021 年9 月 25 日 11:58

都是一些力气活，刚把网页分析完。不打算抓那么多，只抓七八千常用字。

zheshijie · 2021 年9 月 26 日 07:27

老大，这个也非常不错，https://ht.ac.uk/

sxingbai · 2021 年9 月 26 日 13:01

汗颜，我是外语盲……

okayer · 2021 年9 月 27 日 07:36

系统已经改版，现在文字、图片都保护起来了，唉唉。以下是包含了篆隶万象名义、尔雅、方言、广韵、洪武正韵、集韵、康熙字典、佩觽、类篇、释名、说文解字、五经文字、玉篇、玉篇残卷、正字通文本内容的json文件。

qxk.tar.gz (18.5 MB)

另外这里也有部分资源，质量稍微好一点。

https://github.com/bgc2017/chtxt/tree/main/m.字書訓詁

sxingbai · 2021 年9 月 27 日 12:30

多谢！这几天有点忙，还没顾上抓，怎么网站又改版了？

endnote · 2021 年9 月 29 日 05:57

说不定管理员里头有来这里潜水的
如果是这样，还请睁只眼闭只眼啊

感觉还在建设过程中，过段时间再看有没有新增内容

不过这类系统难在维护，毕竟申请的经费在通过验收后可能就没后续了。希望这个系统可以长期维护充实更新。
国外的类似系统，历史都是源远流长的。比如这个 since 1965
Historical Thesaurus :: About the Thesaurus (ht.ac.uk)

sxingbai · 2021 年9 月 29 日 08:47

刚才看了一下， okayer兄所说的改版，应该是相对于能抓取json的时候。现在用js，直接抓取已经很困难了，只能用浏览器渲染。
但okayer兄上传的数据已经是该网站公开部分的精华了，其它部分如形音用码等价值都不太大。原来对用这一部分的语料内容感兴趣，后来想想，这个到处都是了。
另外okayer兄说的图片其实都还可以抓，如果需要，隔天补上。

wsg4560 · 2021 年9 月 30 日 00:02

經籍䉵詁.txt (6.0 MB)
费了半天劲总算下载了。

今日从兹役 · 2022 年2 月 13 日 14:59

简单核对了一些文本，这些书各有各的问题，有些缺少大量内容（洪武正韵），有些页码信息实际无用（绝大多数），有些全书原次序无法恢复（绝大多数），不知什么原因。另外其中类篇跟国学大师的类篇似乎同源，但这个里面的页码没有上下栏第几字这些信息，国学大师的确有，不知何故。在此顺道求高人抓取一下国学大师的页码信息。

补充一些信息：网站实际有而数据里面缺少的有八种：干禄字书、龙龛手鉴、复古编、中原音韵、通用规范汉字字典全无，原本玉篇、篆隶万象名义、五经文字里面只有一种版本，网站实际还有其他版本。
里面较好的可以用的是：尔雅、方言、释名、玉篇、类篇、广韵、集韵、康熙字典。
其他顺序都不对，页码基本也都没用。
如果有朋友要制作电子书或词典，可以参考，以免浪费时间。

shaoshi · 2022 年2 月 14 日 03:06

感谢okayer兄提供的资源。

看了一下“汉字全息资源系统”里的《康熙字典》，发现嵌入了许多图像字，因为图像字没有和文字在一起，所以不知道这些图像字是什么。这等于一个有大量缺字的文本，用处不大。

但是github的资源里有好东西啊！

才看了第一个，就发现一个有三种图像本页码的《康熙字典》索引，其中一个是汉语大词典出版社的标点本，这个标点本的索引大有用处。实际上有了这个字头索引，就可以制作mdict图像本了。

[康熙字典索引
https://github.com/bgc2017/chtxt/blob/main/m.字書訓詁/z1.康熙字典索引.txt

shaoshi · 2022 年2 月 14 日 08:44

兄台不必指望国学大师这个资料了，部分资料有保护。你可以看看佛爷抓的版本：

国学大师字典

佛爷都没办法抓全，我辈更无可奈何。把KR1j0029的资料一卷一卷存下来，自己再动手整理一下吧。天下没有白吃的午餐。

KR1j0029 類篇-宋-司馬光 (WYG)
http://kanripo.org/ed/KR1j0029/WYG

你整理了上面日本人整理的四库本《类篇》后，可以自己设法和宋本《类篇》对照起来：

类篇.四十五卷.宋.司马光.等撰.景钞宋刊大字本

不下一点苦功，岂能从西天取回真经。

okayer · 2022 年2 月 14 日 14:23

龙龛手鉴当时还没有文本，其他只取了自己需要的。想做字典建议集成一下，效果非常好，比国学大师方便，而且可以互相校对。

《集韵》文本把“北道名禾主人”中的“北”误作“此”，因为多本字书对照，这种错误不会造成困扰。

今日从兹役 · 2022 年2 月 14 日 14:54

你可以再核对下，我说的那几个质量都很好啊，缺字并不多，应该是没有图片字，未编码字是用造字符号示意的。主要的问题在于录入者过分想要忠实于底本字形，很多常见字都用了生僻异写（不是异体）。再就是不少格式内容空缺，也不算大问题。日本人做的那个系列的格式体例不纯，我感觉是还不如这个好。

今日从兹役 · 2022 年2 月 14 日 15:02

要是不打算严格维持原书格局，只想查字的话可用的部分会多不少，我是打算每本都分开而且至少核对字头的，顺序错乱基本就等于废了。另，你看下下载下来的洪武正韵是不是没有正这个字？字头应该是少了二三千。现在网站里倒并不缺这些字。

是了恂捏 · 2022 年5 月 28 日 02:24

请问您有这个的资源吗

amob · 2023 年11 月 16 日 17:41

网站页面好像又变了，而且没有加密保护。

wanghua · 2025 年3 月 17 日 08:31

请问能不能分享这韵书集成资料?盼复，谢谢！