正在爬A+医学百科 20w的网页
单个ip访问量800就封ip
目前只能搞多个代理车轮战
perl语言mojo::useragent+libEV制作的爬虫,可以无缝切换代理
正在爬A+医学百科 20w的网页
单个ip访问量800就封ip
目前只能搞多个代理车轮战
perl语言mojo::useragent+libEV制作的爬虫,可以无缝切换代理
大神辛苦了
此致敬礼
不知群里哪位是66兄
不敢当,我在输入法中,幼儿园还没毕业,只能胡咧咧,先生们好。
英语起码还上过小学呢!还能好好的咧咧几句,不多时就要被各种老师批评教育,当真是认识到了自己不少顽习、就是改的适应性还是很慢。
虎码,效率的问题由各种先进的算法保证,自身的优秀性大家有目共睹。
一方面它这么好,另一方面我自身的重塑能力太弱。对我这种蠢人来说,重新学一套太痛苦了。看看虎码,感受下它的美好,然后看看自己,只能继续郑码,养养老。 人终究会被自己过往所做出的选择束缚住,虎码的问题是出现的太晚了,惠及上了岁数的人阻碍更多
能用郑码的都是真牛
分享一个衍生词库: 由于感觉楼主262万词库和2471万的词库内容包罗万象,过于庞大。于是整理一个更小的词库,大约220万条。
整理方法: 把楼主所发2471万鸿雁拼音原始码表(大约是4.0或5.0版本),和腾讯词库( https://ai.tencent.com/ailab/nlp/zh/embedding.html )最大的那个对撞,取二者交集,整理出一个新的词库。这个词库,其实是2471万鸿雁的子集,词频用的是鸿雁2471万词库的,单字频率则是从262万词库5.0攫取的。
特点: 词库的词条从楼主的2471万词库择取,去除了大量了无理、用处不大的词句,整理后得到大约220万条,感觉词条更为精当;覆盖范围更广、且实用。感觉缺点更少、优点更多,更适合普罗大众。但不知有什么隐藏的缺陷。楼主的发布的词库中也有262万的一个轻量版词库,我这个大约220万,有好事的群友,可以比较下比较评测一下。
下载:
hongyan_pinyin_simp_tengxun.7z (18,0 MB)
文件包里包含:
hongyan_pinyin_simp_tengxun.dict.yaml
hongyan_pinyin_simp_tengxun.schema.yaml
安装:
截图:
这个办法好。
鸿雁拼音腾迅测试版·全拼 最后的词库索引只有58.2MB,这个大小已经和 搜狗输入法、百度输入法、讯飞输入法的大小差不多了。
腾讯词库+鸿雁词库的交集
既保证了机械分词的全面性,又有深度学习算法、结巴分词算法保证了词语的合理性。
腾讯词库采用 知识共享署名 3.0协议
但是腾讯应该没想到用这个词库可以做出一个高质量的输入法码表。
腾讯会不会紧急把这个分词数据撤下来?
吓得我赶紧把tencent-ailab-embedding-zh-d100-v0.2.0.tar.gz tencent-ailab-embedding-zh-d200-v0.2.0.tar.gz做了备份。
另外,二者的交集目前发现这对于以词语为输入单元的输入方式是极好的。
这样主要以词语语义上的分割对2471万的词库缩减对整句输入是不利的
目前只发现一个例子
鸿雁拼音腾迅测试版·全拼方案 下的候选词语列表
鸿雁拼音·全拼 2471万增强版 下的候选词语列表
“吓得我”在语义上分割为 “吓” “得” “我”
机械分词将这三个字组成的词语看作一个整体。
如果要做成最完美的输入方案。
不但要在语义学上进行词语拆分,而且要输入法使用的时候对词语按照语义学的语法逻辑进行组合。
这个难度就大得多了。
腾讯词库的训练采用了大规模的数据,而且采用了先进的算法,一般人没这个功夫去研究这些,除非高薪聘用的研究员。
科学是没有尽头的,了解得越多越能发现自身的无知。
将两个文件直接放在
用户文件夹就可以了吗?
小白听说过结巴分词,但是不清楚什么叫机械分词?人工一个一个来标注吗?那么大的语料似乎不可能。
输入一个拼音,有80多个选项,如果要用户自己选,还不如十多个选项。
总之,技术性太强,没让外行看出好在哪儿。
这里是懒人包下载地址,里面有详细的安装说明
鸿雁拼音腾讯测试版·全拼 (220万词库,鸿雁2471万词库和腾讯开源的1200万分词词库的交集,词库库索引只有58.2MB,中文分词准确度较高)
下载链接:
文件大小:18.1 M|
简单易用是王道
谢谢大神
对于一个拼音多个词语的情况,确实帮助不大。
这只是从候选词语的数量上说明语义学上的复杂度。
这么大的词汇量,罕见的词语,常用的高频的一般输入法却没有收录的词语,这样的词语数量是非常多的。
结巴分词是先建立一个标准词库的数据库,一个前后两个字(词语)相关概率的模型,还有什么停止词,按照一定的规则对语句进行词语分割。
机械分词是,不管三七二十一,只要这两个字挨在一起,都认为是一个词语。
比如“吓得我” “了吗” “次哭” 都认为是词语
机械分词的好处是,不会遗漏任何一个词语,频率统计是高度准确的。
机械分词的坏处是,在语义学上不是词语的组合也认为是词语,比如“次哭”,因为“第一次哭” “第二次哭”这样的语句比较常见,反而排名靠前,引来使用者的吐槽。
这明明就不是一个词语,排名靠前不合理。
不过换一个角度看假如没有“第一次哭”这样的词语,鸿雁输入法把"diyiciku"拆分成 “第一” “次哭”两个单元,并且这两个候选词语排名都是第一,那么整句输入的转确率是不是大大提高了。
这个确实准确性高多了,可否能支持双拼方案(自然双拼)?谢谢!
这个简单
hongyan_pinyin_simp_zrm.schema.yaml
就是现成的方案,只需要改一下的码表内部依赖的词库名称就可以支持鸿雁拼音腾讯测试版·全拼了
用户文件夹里还有别的方案,比如虎码等,虎码群里下的呵呵
原来的90m拼音词库可以删除,压缩包里的覆盖即可
来个虎码方案如何?不必要五笔了,我已经入坑虎码了
虎码还在学 打词还很远哪 咳咳
98五笔方案最多可以支持十万的汉字,虎码支持数量还没那么多。
对于虎码表缺失的编码,之前是从95五笔里面借来的。
虎码可以借助输入法的字形,使用软件自动拆分(具体实现算法可能比较难,最简单的可以采用暴力匹配的方法),人工拆分笔画非常耗费时间
楼主出手,官方发布,造福大众,太好了!
发现一个问题:二个词表对撞的时候,一些词撞丢失了;之所以会出现这些情况,好像是因为有些词条是一词多音。比如,鸿雁原词库里有:
百凤朝阳 bai feng chao yang 1000
百凤朝阳 bai feng zhao yang 1000
撞后的交集词库,就只剩下:
百凤朝阳 bai feng chao yang 1000
或许要制作交集词库,可能要使用:鸿雁词库 VS (腾讯千万词库+其他词库)
词库中有不雅词。这个问题或许重要性不高。
天蝎重现江湖。随手发现一个奇怪的词频。输入tian xie,首词是 天蝎,而不是 填写。奇怪的词频太多了。
楼主这次发布的词库,虽有需要改善之处,但短句广博丰富,芜杂之处已经减除,更加呈现出短句输入词库的样子;窃以为,这次的词库作为短句词库,已能在输入法词库之林称霸一方了。
程序员挖掘数据的能力就是强