单从这张内页截图中先周十五王人名序列识别真的惊艳到我了,我对比夸克、百度网盘、扫描全能王扫描的三个样本,正确率依次排名是paddleocrvl(100%)>夸克>百度网盘>扫描全能王。其中不得不吐槽的是扫描全能王,我连续五年持有会员,但它却一年接一年一再刷新下限,Windows本地端肉眼可见的三五次大更新,扫描效率、精度一再下探,原本生僻字识别这一优势现在基本抹没了,也不知道现在接的什么底层模型,真的奇烂无比,我甚至怀疑我被割韭菜了。paddleocrvl真的就像上帝投下的一束圣光,让我这个对百度绝望透顶的人又另眼相看了,我都想替百度说句广告——风里雨里,百度有你 ![]()
最大的缺憾是paddleocrvl对显卡很挑剔,本地部署普通的家用级显卡都跑不太动,更何况我这种只有CPU的笔记本电脑。现在也就网页端demo窗口过过瘾儿 ![]()
你送的这个样本是不足为据的,因为它们是古代史里常见的文字,所以有极大可能在训练集里见过很多次。需要找随机的非常见文本,里面包含若干生僻字等。
嗯嗯,后续再瞅瞅。真到识别含有大量生僻字的一张内页的场合,qwen和doubao也可以临时顶上
像 PaddleOCR-VL 这种模型,是可以自己微调训练的,见 ERNIE/docs/paddleocr_vl_sft_zh.md at release/v1.4 · PaddlePaddle/ERNIE · GitHub ,但相对麻烦,需要自己准备生僻字的数据集(还不清楚什么字符它训练过,什么没有),也需要算力。
假设 PaddleOCR-VL 可以识别10000字,,打算把它强化到18000,那么新增8000字符。据说需要每个字符出现的次数不低于300次,那就是250万个数据。5个生僻字符合并在一条数据里,则是50万条训练数据。上面链接示例的孟加拉语微调训练是3万条数据,训练了2个小时,50万条数据,则大概需要20小时的微调训练。
我部署都成问题了,更何况就微调训练,不敢想,实在不敢想 ![]()
有好主意,有需求,可以拉大户赞助,不过中文生僻字识别不是什么有群众基础的需求,感兴趣的人可能不多。我们还可以坐等big lab的技术进步,估计在一两年内,这个问题可以基本被解决。想要识别3-5-8万字,那就太专门了,有专业的商家。
但愿吧,假使真的出来了,要是像籍合网那样走的高价路线,估计也没人会买账的
我没怎么用过notebooklm,这种总结、图示之类貌似便捷,却也同时把原始内容简单化、dumb down了。学生,教育用比较合适,我个人更喜欢直接看原始材料和文献。
呵,你用的这些文献很难说是原始,高教社的《中国历史·先秦卷》我没看过,但我猜基本就是垃圾,封建不封建的争议本身就是马列主义作为教条引入,削足适履搅混水洗脑的产物。阎步克怎么说也是不足为据的,感兴趣自己去看先秦文献好了,比如马骕的《绎史》,就把这些资料整理得很有条理。单就“封建”而论,像顾炎武这些人,实际早就讲得很清楚了。
知封建之所以變而為郡縣,則知郡縣之敝而將復變。然則將復變而為封建乎?曰,不能。有聖人起,寓封建之意於郡縣之中,而天下治矣。蓋自漢以下之人,莫不謂秦以孤立而亡。不知秦之亡,不封建亡,封建亦亡。而封建之廢,固自周衰之日而不自於秦也。封建之廢,非一日之故也,雖聖人起,亦將變而為郡縣。方今郡縣之敝已極,而無聖人出焉,尚一一仍其故事,此民生之所以日貧,中國之所以日弱而益趨於亂也。何則?封建之失,其專在下;郡縣之失,其專在上。古之聖人,以公心待天下之人,胙之土而分之國。今之君人者,盡四海之內為我郡縣猶不足也,人人而疑之,事事而制之,科條文簿日多於一日,而又設之監司,設之督撫,以為如此,守令不得以殘害其民矣。不知有司之官,凜凜焉救過之不給,以得代為幸,而無肯為其民興一日之利者,民烏得而不窮,國烏得而不弱?率此不變,雖千百年,而吾知其與亂同事,日甚一日者矣。然則尊令長之秩,而予之以生財治人之權,罷監司之任,設世官之獎,行辟屬之法,所謂寓封建之意於郡縣之中,而二千年以來之敝可以復振。後之君苟欲厚民生,強國勢,則必用吾言矣。
要这样断词才比较符合我想要表达的意思——“原始|文献出处”,不信且看下图——
gemini真真切切把回答时罗列的几个点所根据的文献出处文段给展示出来了,让人可以对照着评判模型是否论述到位。而WPS只能锚定来源文档整体,回答也往往脱缰走马,凭空出现很多书中没有点到的。马列史观任何院校教材都不能完全革除,毕竟关乎“国本”。张岂之的六卷本历史教材还是有可取之处的,比如硕士研究生选拔考试,我看往年的真题,很多知识点都有对应到,但毕竟是早几年的教材了,知识更新有限,还有整体太散太杂了,光是分封制的相关论述散见于各章,刚好可以靠AI来整合。至于“封建”一词的界说,想来并无疑义,学界更多关注的是封建社会的起讫问题,定名时大家受既有认识的影响,往往会先验性地作出判断,故而才有那么多大家名流缠讼不休。至于阎老的普讲视频深的不展开,杂的理的清,还有讲解节奏把控的比较好,这是其高明的地方,很多大学生、(成年)社会人士还是可以汲取到不少知识的。
我不这么看,现在要找书,寻求知识基本是没有障碍的,那么既然耗费时间了,就要尽力找到最优秀、水平最高的作品来看,次一级的,等而下之的大致可以看作干扰、噪音,无用的废品。
中国号称历史大国,数千年王朝的兴废等都有连续详尽的记录,但在专制制度下,忌惮于“文字狱”,很多历史书可以说是“秽史”,尤以当代为甚,是需要避之不及的东西,高教社统编的历史教材,那更是如此了。
到目前为止,并没有中文写的理想的大部头的“中国通史”。矮子里拔将军,上海人民出版社的“中国断代史系列”算稍好的了,但其中各著作的品质也良莠不齐。还有一种办法,就是按照朝代单独找该领域的优秀之作,比如远古史用刘莉、陈星灿的《中国考古学》,《春秋史》用童书业,西周史、战国史用杨宽等。
我不这么看,各人学殖根底不一,尚在学步的阶段这种通论概说性质的书还是可以看的,方便较快理清基本的知识框架,再根据需要进一步窥涉更深一层的论说,就好比你上面所列及的童杨等人的著作,尤其是杨,几乎中国先秦史学界,无不受其两书的牢笼。另及,一代有一代之史,正史是史,伪史也是史,私书是书,官书也是书。单以近百年的通史史著而言,本身就杂染不一,真赝相冒之处在在有之,但看还是得看的。高教社的书除了马工程那一套实在不敢恭维,大抵还是算是比较板正的,偏谬之处有之,但不至于大偏大谬。即便自矜不受马列史观所影响的当代学人,著书立说也往往可见异化的马列史观的影响,甚至较之前人更有甚者。
粗略判断图书品质没那么复杂,国人读历史书的多了去了,没把握可以去看看豆瓣的打分和评价等。
我一般是通过读秀图书馆某书的入藏图书馆总数及被引数,再结合豆瓣评分来确定一本书可不可读的。就像研究出版社出的李琳之若干本上古史的书,豆友评价普遍不高,我一看也确实如此
请问txt如何转化成pdf或epub(带目录和脚注跳转),单纯看txt还是不方便
这都是自己动手的问题,不懂现在也可以问ai,没人有责任把饭喂到每个人的嘴里。
至于何为方便,各人看法不同,这本书我实际是用图像版pdf读的,不会傻乎乎地直接去读文本txt(最起码要转成word文件来阅读)。制作保留txt格式,对我来说最方便,可以在github编辑、修正、比较,可以用文本编辑器、终端、FileLocator Pro批量搜索,也可以直接喂送给ai等,pdf、epub格式就难以兼顾、胜任这些使用方式了。
哈哈,感谢回复。是没有责任喂饭的,能分享帖子里的东西已经是奉献精神了。所以也只是问问有没有方法(因为问了ai,没有答案,也不会简单的代码)。不过我也下载了楼里有人基于之前版本做的epub,再次感谢
将这个epub的后缀改为zip,解压缩,找出里面的html文件,将新TXT的内容替换进去。如果懂点正则表达式会很快完成(例如将^(.+)$替换为 <p class="normal">\1</p>)



