分享外教社意汉汉意词典PDF

通过网盘分享的文件:外教社意汉汉意词典_1428页(压缩).pdf等2个文件
链接: https://pan.baidu.com/s/1NyH36QZXYxsgHMrDppkVpQ 提取码: sap6

不知道@wynick27 有没有OCR的打算。

3 Likes

https://langenscheidt.s3.amazonaws.com/yihan-001.png 这里直接下载也可以。PDF有几页位置不对。 aws的已经调整过了。

感谢分享,这本是应该是《外教社简明意汉:汉意词典》的增订版,也是之前网上没有资源的。我把现在的跑完就跑这个。

朗氏德汉的原始扫描pdf要是也能发出来的话,估计wynick老哥也会感兴趣的。aws上的压缩图像清晰度影响识别的。

通过百度网盘分享的文件:朗氏德汉双解大辞…pdf等2个文件
链接:https://pan.baidu.com/s/1zkoq2Je3GN9nQqG0PcuysQ
提取码:26m7
复制这段内容打开「百度网盘APP 即可获取」

3 Likes

朗氏德汉已经识别了一遍了,它的底本还可以,错误主要不是因为看不清楚,而是视觉LLM内在的一些随机性。

这个我已经fork了一份,改了一些词头错误,不过和德语电子版没有完全对齐,已经写程序了很多,但还有大概500个词头有问题。 对齐了以后就可以开始对比原文文本修正内容了。

感谢,那可以直接做文本版了。

https://raw.githubusercontent.com/Linzertorte/linzertorte.github.io/master/yihan/t.txt

试了一些不同的gemini提示词 做了两页 效果显著

你是ocr的还是直接提取的数据?我尝试从文本pdf提取数据,目前只做了意汉部分。

我发现原书有的地方词性后的.标成了,,还有各种格式问题,写了很复杂的脚本然后手动修了一部分终于差不多解决了各种问题。

现在效果:

数据:
意汉部分数据和脚本.zip (2.2 MB)

词典文件:
外教社意汉汉意词典(意汉部分).mdx (2.0 MB)

wjsyhhy.css (455 字节)

2 Likes

我不会提取这个印前pdf的文字。ocr的。忽略吧。你做的很好。我打算集成到kotoba-dojo.com