Guojia❤️ 辶甬用❤️手讠吾词典(8.21)

八千多个词条,包含图片、文字和视频。很难提取吧?:thinking:



见百度网盘 (更新:8.18)
8.18: 删除索引“ALL”,添加三本词典【体育专业手语(老版)、理科专业手语(老版)、中国手语老版本】
8.14: 处理错误的词条,添加索引“ALL”

密码: FREE

5 个赞

看iOS版也是海笛出品的,海笛的词典数据有被提取过,论坛上有作者会,但不知道他们用的什么方法提取的,没见到有公开的。

最近因为学术需求,想训练手语示意图LoRA,需要素材。抓包分析了一下国家通用手语App,发现其全部文字内容似乎是完全内嵌在App中的,但示意图和视频均是到无需cookie就能访问的公域域名获取的(可以理解为图床)。
比如「把」:

有空ㄦ的话解包看一看它的App。

我不会搞,求指点迷津:face_holding_back_tears:

我也不太会:confused:今ㄦ个看了看它的android app,底子照着海词词典app改的,因为一堆资源文件都没删。但是App被360加壳了。我不懂安卓逆向,不知道怎么处理。
所有手语图片格式我看了下ㄦ,大概是这样

  • http://img.haidii.com/image/41001/ 国家通用手语图床
  • /7d1d984f/ 手语图示或者 /8b8fd305/视频浏览图
  • /fc14753bf/ 类似形式的9位十六进制数,我猜测是根据词条id生成的某种编码。
  • /f53fa3dad1744e86c3c46364bd3b528b.png 类似形式的32位16进制数,我猜测是根据词条id生成的md5编码。

目标是爬下来所有图片、文字(视频我还没想好怎么办),现在有这么两个法子。

  1. 写按键脚本,挨个ㄦ点,抓取文字,获得图片响应,记录GET的URL,从而得到图片。反正不到一万条词条,一张图片也就几十K,10秒抓取一个词条,30个小时就可以得到全部内容,服务器流量也就300MB,也属于正常访问流量范围内。
  2. 安卓逆向。进展会比较缓慢。
    我目前打算是按照第一个方案继续做下去。
2 个赞

id生成的md5编码怎么获取的?

抓包(通过软件检测app从网上下载了什么东西)或者找存储目录都行。


用第二种方法:安卓系统中,该应用的所有图片均存储在 /data/data/cn.dictcn.android.digitize.hx_gjtysycd_41001/files/image 下,其文件名就是一串ㄦ十六进制,比如 0aa3811c5635acc4feb659346affdd51.png 这样的。

今ㄦ个已经得到了几乎所有手语图(共6706张),理论上还差一张(app收录了8214个义项,有多音字、同音词什么的,但只有6707个词条),似乎是下漏了。我训练手语图LoRA的数据要求已经达到了。这段时间比较忙,就看之后谁能提取字典的文字数据和视频了。提取好了就能做电子词典了()

2 个赞

大佬厉害,可惜了我不会抓取安卓里的数据:face_holding_back_tears:

1 个赞

Anna下不了,有谁帮忙下载?

搜了搜,原来还有官方网站,也许可以买一些做成pdf: 国家通用手语系列 (readoor.cn)

处理图片分割反爬可以学习: 逆向世界某读切块图片链接与Python还原切割图片 - 『脱壳破解区』 - 吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

“抱歉,本帖要求阅读权限高于 10 才能浏览” :new_moon_with_face:

魔法上网也不行,还是一样慢 :tired_face:

逆向世界某读切块图片链接与Python还原切割图片.pdf (6.7 MB)

只是思路,不是同一个网站,需要自己触类旁通。

1 个赞

安娜我也下不动,很折磨。建议捐赠一下吧。

1 个赞
1 个赞

总共四册,这只是其中一册。

谢谢,还差三册:face_holding_back_tears:

1 个赞

在做mdx,请勿重复劳动力……

见百度网盘 (更新:8.14)
处理错误的词条,添加索引“ALL”

https://pan.baidu.com/s/1FvVmzM86PJNQsEInTysqlw
密码见1楼

词条处理太麻烦了,花了一天一夜搞定 :sweat_smile:
欢迎反馈,谢谢:face_holding_back_tears:

3 个赞

还有几本要不要也做了?我花了几个小时反复从安娜上下载下来的 :grinning:

提取码:FREE

1 个赞