《西汉小词典》 文本(OCR)

更新:

我已经与Gemini 2.5 Flash模型的识别结果对比粗校过一遍,主要修正文字丢失、错位、幻觉等显著的毛病。具体文本尚未字符级一一比照细校,不过此类讹误比较少。

版本:

西汉小词典
Pequeno Diccionario Espanol-Chino

王忠勇 编

商务印书馆
2009年·北京

本词典号称收词约3万余条,实际可能就25000左右。这种规模的小型词典没啥在词典软件里搜索的意义,查得率太低;不过, 如果翻阅通读,倒是不错的选择。

OCR用的工具是Gemini 2.5 Pro,尚未校对,或有讹误,建议慎用

窥豹一斑:

〈1〉

a ➜ f. [pl. aes] 1. 西班牙语第一个字母. 2. 公亩(área)的符号.

a ➜ prep. [与el连用缩写成al] 1. [表示方向、目的地] 向, 朝, 往; 到: doblar a la derecha 向右转弯. vuelo con destino a París 飞往巴黎的航班. 2. [表示方位、地点] 在, 位于; 离: a la salida del cine 在电影院出口处. a diez kilómetros de la estación 距离车站10公里. 3. 在…时候; 在…之后: a las ocho de la mañana 上午8点钟. a los pocos meses 几个月之后. 4. [表示方式、手段、价格] 用; 以; 按照: bordar a mano 用手工绣. dibujar a escala 按比例绘制. 5. 每: a cien kilómetros por hora 每小时100公里. 6. [表示比较、对比] 比; 对: El tanteo final fue de dos a uno. 最后的比分是二比一. 7. 为了: Vengo a visitarle. 我是来拜访您的. 8. 由于: Al no encontrarle, le dejé un recado. 由于没找到他, 我就给他留了口信. 9. 如果: a ser posible 如果可能的话. 10. [表示命令] 去: ¡A trabajar! 去干活吧! 11. [用于作直接宾语的人或拟人化的名词前]: respetar a los ancianos 尊敬老人. 12. [用于间接宾语前]: dejar las comodidades a los otros 把方便留给别人.

ababol ➜ m. 【植】罂粟.

abacería ➜ f. 食品杂货店.

abacial ➜ adj. 1. 修道院院长的. 2. 修道院的.

ábaco ➜ m. 1. 算盘. 2. 【建】(圆柱)顶板.

abad, desa. ➜ m. f. 修道院院长.

abadejo ➜ m. 腌鳕鱼.

abadía ➜ f. 1. 教堂, 修道院. 2. 修道院院长的管区.

abajo ➜ adv. 1. 在下面, 在楼下: Abajo hay gente esperando. 下面有人等着. 2. 向下: cuesta abajo 下坡. || interj. 打倒. || de arriba abajo 自上而下; 从头到脚.

abalanzarse ➜ prnl. 冲, 拥向, 扑向(a, hacia, sobre): abalanzarse sobre la presa 扑向猎物.

abalaustrar ➜ tr. 给…安栏杆.

abalear ➜ tr. Amér. 向…开枪, 射伤. || abaleo m.

西汉小词典 前言 & 体例说明.txt (8.5 KB)
西汉小词典(粗校,OCR).txt (2.2 MB)

1 个赞

前言 & 体例说明 实际是用 Qwen3-Max 识别的,大写的拼音就没认对。

补充一个 Gemini 识别的版本:

前言 & 体例说明 - Gemini.txt (10.2 KB)

感谢共享文件。浏览了一些内容。OCR效果挺好。存在一些错漏,如tener词条文本最终没完结,第一个vaca 词头应该是字母v,vacunar两个词性都是 tr.。最后这个,不知道是原文如此还是OCR造成的。如能共享pdf文件则可供坛友用于校对。

1 个赞

谢谢纠谬捉虫,这本词典在 https://annas-archive.li/ 用名字一搜就有了。pdf文件是灰度jpg格式,体积稍大,近100m,所以我没有在帖子里上传。

查了原图像,这里应该是幻觉错误,前一部分tr.当删除。

好的,感谢提供宝贵信息。

正在用 Gemini 2.5 flash 再识别一遍。两次OCR得到的文本对校,应该可以把上面提到的文字丢失、幻觉等问题发现消除了。我互相对比了前25页,文字本身的识别错误似乎比较少。

Gemini 2.5 flash 模型第二轮OCR所获文本,性能稍逊,不过服务于对比改错目的已经足够:

西汉小词典(Gemini 2.5 Flash).txt (2.2 MB)

这个好。版本一如发现有错漏可以用版本二比对进行修正。

我已经与Gemini 2.5 Flash模型的识别结果对比粗校过一遍,主要修正文字丢失、错位、幻觉等显著的毛病。具体文本尚未字符级一一比照细校,不过此类讹误比较少。

更新见主帖。