哦哦,那说起来这个问题不大。静等 sxingbai 兄弟放大招了
有空又试了几个,发现字体加密时应该用了时间戳,不好搞。
你有辞海聚典加密用的字体吗?我没找到,感觉用的字体很像方正宋体超大字符集。
没有。昨天和今天复制同一内容,但相应的字不同。和方正加密方法不一样。
那个字体有时效性的。聚典的文档里说字体只能请求一次。
哦,我没看文档。那即使下载了字体,也没用吧,因为不可能在短时间内抓取所有文件,而加密字体和一般字体的对应关系是动态的,要搞清关系,必须读懂调用程序。
静态动态都没关系,有原版字体就可以解密,或者相似的字体也可以,需要笔画粗细、位置、衬线装饰保持一致。
还有没有其他变通的法子?需要帮忙跟我说下
字体映射极有可能是一天一变。如果找不到动态映射规律,可能就只能付费注册。网站说付费能复制,应该没有加密,但可能有其它限制。
感觉没那么简单,一天查词、复制都有上限,没可能暴露太大的漏洞出来。要不私信我,PO个收款吗?我给你充会员试试
对,它是那样说的。但目前非付费会员还没有查询次数限制,付费有没有,不得而知。但应该不是漏洞,是故意的。
还是用土法炼钢的方法吧。先OCR出原词典,再同光盘版对照,用以确定缺漏、讹误书证、词条,而后复制辞典总汇的汉大文本替换
好弄了顺手弄一下,不好弄就算了,有时间不如读点书。再说目前也够用了。
嗯嗯,也是
《汉语大词典》我用finereader做过两次ocr,结果都不理想。
S大用百度低精度做过《汉语大词典词目音序索引》的ocr,只有英文字母准确,汉字不太行。
老兄是能人,如果愿意付费,可以付费用百度高精度ocr做《汉语大词典词目音序索引》的ocr,希望词头能多数辨识准确。这总比ocr整套《汉语大词典》可行。
《汉语大词典词目音序索引》
An alphabetical index to the hanyu da cidian
但是我不承诺校对。三十几万条,一天校对一点,恐怕得校对十年。
音序版没有订补的词条,百度很多生僻字无法识别,那个音序版本身也挺糊的,识别的质量估计会很差。
订补词条有文本版了,基本上完整,不需要ocr。
音序索引本,美国的版本比中国的清晰。S大是用中国版模糊本做的。用美国版可能会好一点。
从《汉语成语源流大词典》的ocr结果来看,百度高精度估计会比finereader好。但是要ocr《汉语大词典》是巨大的挑战,百度能好多少,不知道。
不用逐条校对,肯定有重合的。我用的是夸克扫描王和扫描全能王组合扫描,主用夸克。用代码自动匹配重合的,再按序列逐一核对错出的
嗯嗯,音序版我试了下。真的不太可,网上流传的太糊了。识别精度提不上来
美国版是哪一版?跟上辞版的内容完全一样吗