那只能懂行的哥们用汉大所有词头再覆盖抓取一遍,我的效率慢很多,如果电脑处在闲置状态,全力投入抓取作业,一天至多也就一万
方便的话,可以把整个抖音汉语汉大词条部分导出txt文本来吗?只要汉大就可以,但要简单设置词头、释义、例句标志供机器识别要素。我这几天琢磨完代码,想拿光盘版、OCR版、抖音版互校,试试能不能快速分拣校补
词条文本就在#282楼。
这样有的放矢,可以减少重复劳动。
可能大多数也都是繁简转换,少数是新漏的。
这里有三十万个在“hydcd汉语:大词典.2008”里面的额外词头。大部分估计是繁简差异。但是至少几万是真的没有收录。
hydcd汉语:大词典.2008.rar (172.7 KB)
你这只是词头清单啊哥哥,我要的是词头附带完整释义、例句的词条,类似这样的构造——
【查询词目】: 买弄
【释义 1.】: 玩弄手法。
【例句 1】: 〔江西路府州縣差設里正主首官吏人等〕那上攢下買弄,以爲奇貨,大爲民害。【出处】: 《元典章·户部十二·户役》
【释义 2.】: 卖弄;有意显示。
【例句 1】: 一箇的眼䰒鬆,買弄衙門字,熱心兒當地灰冷話兒人前刺。【出处】: 明·王衡·《郁轮袍》第一折
【例句 2】: 对文字的许多禁忌,是朱元璋自卑心理的一面,相反的一面却表现为买弄出身。【出处】: 吴晗·《朱元璋传》第七章三
【查询词目】: 试看
【释义 1.】: 试着看看;且看。
【例句 1】: 且待夜深明月去,試看涵泳幾多星。【出处】: 唐·韩愈·《盆池》诗之五
【例句 2】: 俺綽起這桃花瓣兒來,我試看咱,好紅紅的桃花瓣兒。【出处】: 元·康进之·《李逵负荆》第一折
【例句 3】: 试看那,欃枪满地,汉家旗帜。【出处】: 叶剑英·《满江红·悼左权同志》词
你是要文本text的格式? 体积倒是会小很多,只是显示会比较原始。leon不是做了个text版本的么
嗯嗯,但是一定要有构造元素标志,像我这样的。我只爬了一万来条,重点爬的光盘版缺例词条,我自己代码水平有限,一一完整爬取的话工程十分浩大。我最快周日可以试试新方法
你是说2.0光盘版也缺例,但是在抖音里面有?那为啥不从这里的mdx里面提取?
我有空试一下转文本text版。
本来想加一个纸板扫描的,应该比光盘版全一点?
嗯嗯,你试试。我纸本书堪堪扫了三卷,我先用我新方法测验一下,效率如果大有改观的话,就继续扫其他卷
这摊子铺的有点大,加油。
ID67.rar (5.7 MB)
229个私人字仅剩77未找到,
还有149个的词语必定存在,但未找到
ID总数618677,以上三个参见rar
我高度怀疑有完整版的汉大,只是词头无法搜索,后期只能猜ID,按规律填数
链接:https://pan.baidu.com/s/1sxGuV1YnKvZNN-s_zQNk3Q
提取码:kkkk
json已打包,
还有一些细节待微调,总共词头应该618678.
search排查还在慢慢进行。
弄好了更新。
诗词估计会分开来一个mdx。
search别排了,浪费时间,我用几个版本的汉大search了几遍了,连“池子”都search不出来,不信你试试,不如优化猜测算法,多搞几个ID才是正道
最后再把json放出来,交给专业人士来处理字形字头例证的纯血汉大,术业有专攻,
诗词我也在搞,我走汉字type=4的路线,先找出必定存在的,
你精通search,可以走诗词名,名句,search的路线,到时候我俩再合并去重
心心念念的三餘找到了
目前的字典词头已经足够用了。还不包含繁简跳转,纯粹的内容有六十几万,满足了。
search也限制最多200个结果,不可能完整的,整个抖音汉语网站就是一个外面光的屎山,布满了限制。
好在有其他版本(图像和光盘)来互补。要不然不就是垄断了吗。。。
这里有的发音和图像,别人没有。
我用type=0,来判断是否存有该字的内容,如果没有内容,则汉字遍历时不用遍历该字,免得每次都用9.8w过一遍,用9.8wUnicode和汉大词头e,过了一遍,最后,得出4w字头,
4w字头.txt (213.4 KB)
四万中一共74个词头没有
㐽
㭴
㶽
㽒
璤
聁
錺
𠤳
𡋤
𢠁
𣎑
𣗊
𣭈
𤇃
𤶊
𥐟
𦈌
𦈏
𦬢
𦬵
𧹖
𨰾
𨱋
𨳒
𩙪
𩨀
𪎊
𪱷
𪴙
𪸩
𪾔
𪾣
𪾸
𪿫
𫂃
𫇛
𫋷
𫍜
𫍬
𫍱
𫍵
𫍸
𫎬
𫏋
𫐎
𫓥
𫓨
𫓩
𫓰
𫓺
𫓻
𫔈
𫔯
𫔴
𫗣
𫗦
𫗮
𫚒
𫚔
𫚙
𫚚
𫛣
𫛤
𫛫
𫛴
𫜁
𫜄
𫜰
𫝭
𫝮
𫟶
𫟻
𫠁
这些字搜索结果是其他字,㐽,佩,佩
抖音字头搜索10w加2w字头_results.txt (600.1 KB)
这就是抖音汉语暗藏的一个限制,让你无法直达内容,有点滑头。
更新了mdx,mdd,加了4.mdd含有离线发音图像。
总共618677词头。
css有些微调。
除非有大量词头增加,不更新了。
P.S. json 数据附上,来自KK的html文件整理
doc.rar (119.4 KB)
147-38-15-3.txt (753 字节)
54.txt (1.5 KB)
收工收工 ,补最后54个了,

