成本也太高了,是不是Paddle好一些
Paddle这些太傻了(包括hunyuanOCR等),只能以既定格式输出,不怎么遵循指令;Gemini 3 Pro等可以做到你要求什么全照办,词头,bbox,全部OCR文本等一次性用json输出。
做一本词典至少得花多少钱?
t.py (3.1 KB)
Gemini 2.5 Pro可以薅羊毛,有耐心不花钱,Gemini 3 Pro Preview我还没有用它识别过整本图书或词典。
新建文件夹.zip (9.3 MB)
好吧,算是研究出来了,程序差不多就是这样子吧,后续的话,大家有想改进的话,可以研究一下
了,弄了好几个小时,我还以为是程序的问题呢,没想到是AI的问题,2.5Pro就可以。比较精确的画框了
API的话,谷歌会提供一个免费的额度的,我用了一个下午也没遇到什么限制。然后呢闲鱼上面有卖的,可以去买那种官方的.。我就买了两个试验一下可以用,具体有什么限制我也不知道,不过也不贵呀,这么看来。搞完一本书。也用不了多少钱了,能超过100块钱吗?
这个词典如果没有人做的话,我可以挑战一下。搞个切图和文字版吧。有人做就算了,不过我也没什么时间
我已经在提取文本了,但这本词典收词量太小,就是阅读或全文搜索的,做成mdx词典没多大意义,查得率太低。
我在闲鱼买的gemini3.0 api,20块300多次调用,我每次让它识别15页,不过不太稳定,有时候掉线,有时候识别失败。20块够识别几千页书。
楼主不觉得这种东西不适合做ank牌组吗。
一张卡不能放太多信息,否则会事倍功半。
我用这么多年anki,也试过导入词典,但结局无一例外是放弃背诵那个牌组。
最小信息才适合anki。像正面法文,背面英文,一两条例句和词性,这个是容易坚持下去的。但七八条例句,眼都看花了。建议要做卡片的话,最好找一些词频加简单释义、简单例句的资料。不然资料越多,效率越低。
3.0的api输出非常贵,一般聊天还可以,用来识别词典非常不划算。
哪一家,推荐一下
我买过这个做成了你说的那种anki
通过百度网盘分享的文件:German F…apkg
链接:百度网盘 请输入提取码
提取码:BkV9
复制这段内容打开「百度网盘APP 即可获取」
anki我一般是用专门对应等级词汇书做,比如《万词对策》。或者直接用教科书的词汇表更方便。
还行吧,我买的是非官方的,价格确实不贵,但经常掉线。
自己在闲鱼搜吧,论坛不许引流。
正文文本已经ocr提取出来了,但尚未校对,感兴趣者可以在它的基础上继续加工。
德语学习词典(德汉双解)_Gemini.txt (1.9 MB)
不一样。外教社的原版是德德词典,同济的是德英词典。收录的都是基础词汇,适合备考B1的初学者。同济的那本对有英语基础的学习者更友好。因为,英语可视为简化版的德语,盎撒人是日耳曼人分支。
有mdx。PONS、朗氏、杜登隔壁都有人做过,以前网盘还能搜到。摆渡同济许一诺,作者有很多QQ群,大部分资源都是免费。
你直接上传下吧,或者给个链接。我在许一诺的群里,搜索了没有。



