《拉鲁斯法汉双解词典》 文本数据(OCR)

方便分享一下这本图片版词典的地址吗?论坛里似乎只能找到基于在线版的简版词典。感谢!

图片版没发布过,这个是我截的图,前面帖子也讨论过图片版问题,因为原来扫描的人联系不到了,直接公开发布不太好,所以只发了文字版。

好的,谢谢回复!

ai 加标签的285个未解析词汇。我把加了标签的xml去掉标签,跟原文校对过一遍,并没有幻觉,但存在少量因为格式理解不同而导致的错误,这些错误已经修正了。

285_xml.txt (582.8 KB)

然后根据现有的xml做了一个格式化过的mdx,加了很多色彩,它并不是最终的视觉设计,而是弄得花里胡哨便于查错。

拉鲁斯法汉词典测试.mdx (6.3 MB)(尚有不少格式错误,仅供查错测试之用
larousse.css (794 字节)

目前发现的主要问题有:

1),/ ◆ ‖这些符号和引领的文字需要加标签围住,便于隐藏或者格式化。
2),pos 需要更上层标签把n. m.圈在一起,以便在一个block里独立设定。
3),cat_fr 标签文字的位置比较随意,难以统一。

1 Like

拉鲁斯法汉双解词典_xml.zip (8.3 MB)

整合了一下标签,增加了一个tag_stats字段,如果是ai_gen表示是ai生成的,如果状态时error表示这个标签是已知有错的。

从上面的截图来看,好像法文原版的切图也是能够通过程序制作的。因为双解版的切图不便于现在分享,可以请一份法文原版的切图不?
也是一个可以参照对比的印刷版,能够图文对比用起来也能更放心。

这个比较麻烦,因为现在的图片是按双解版的页码来索引的,法文版页码完全不一样要重新建一套,然后切图参数也要重新调。

拉鲁斯法汉双解词典_xml.zip (8.5 MB)
新版补齐了扩展词头,然后加了链接:

不过多个词头的情况下css会出问题,而且这个标注也有错:

3 Likes