求哪位大神制作《牛津袖珍英汉双解词典》第11版的mdx

请求大神制作《牛津袖珍英汉双解词典》mdx或txt

恳求哪位大神做一下!

OCR效果不错

请问ocr结束了吗?在往下做或者已完结?如能先行分享ocr文本,坛友可接力继续,或多出一两个版本,众花齐放。

才OCR一半,为了保证准确度。

期待早日见到大作。

请问大侠,这是用什么软件OCR的,效果很不错,能自动分段

Umi-OCR

https://github.com/hiroi-sora/Umi-OCR

Umi-OCR现行版本为2.1.5。对于书籍来说其识别格式、速度和结果并非理想。现百度在线的paddleocr已排名第一。但也不是100%正确。https://aistudio.baidu.com/paddleocr

Umi-OCR 只是个投喂器,背后的引擎可以自选的,之前离线的paddleocr效果不错,不过现在加入了ai ocr,选择就更多了,效果也更好了

原来如此,再试试。谢谢!!!

Pocket Oxford English Dictionary 11th en-zh
《牛津袖珍英汉双解词典》第11版 EasyDict 尝鲜版出炉!

请在EasyDict 设置界面 - 词典商店 下载。

OCR原始文档

这个是用程序用正则表达式转换制作的,不完美,但可用,胜在速度快,后续慢慢完善

运行Umi-OCR.exe后唯独没有 魔搭模型ID 选项。估计就在此处卡壳,请指点。

我的截图里面 都有啊

看了一下,发现有些词头没提取到,如abattoir,-age;有些与边上的索引字母混在一起(索引字母没删完全),如 A adventure。期待完善。

MDX版 新鲜出炉!

牛!要是能核对一遍就完美了。

下载的Umi-OCR_Paddle_v2.1.5.7z.exe为128MB,解压后的UmiOCR-data文件夹为435MB。运行的全局设置界面:


应该还是缺少啥,多半是模型这块。