很期待,高产资源
粗略看要补充扫描识别pdf文件74页。后面可能还会碰到更多。需要一些时间。
经过一个多月的努力,终于完成文本增订和mdx制作工作,下载链接为:
https://pan.baidu.com/s/1jO0cAFfqUWf8TKGubavlkw?pwd=gran 提取码: gran
输出了几个文件,具体注明于“文件说明”内。
OCR识别人工编辑,错漏难免。如发现恳请告知以进行完善。为此发个专帖用于错误报告和修正:
《NEGDEC》报错帖
有何意见或建议,也请发在此帖内。
将会在未来一段时间内不断进行更新,直到完善。更新消息会发在该帖里。
后续将增加体例说明。考虑是否增加反查功能。
再次感谢amob提供文本使制作得以顺利进行。
居然还有一个小程序上线了新时代西汉大词典
文本不完整,格式没统一,错漏甚多。例如hablar词条。
您好,多谢分享。在试用时,发现css好像没有起作用,怎么调整呀?
请问你是在什么词典软件里使用呢?我一直用Mdict, 显示正常。另外作为HTML在浏览器显示也是正常的。请发截图看看。
原来是炒冷饭,以前倒闭了现在重启。。。当年怎么没人爬虫做mdx词典分享出来,可惜了。
外研社在线词典英汉汉英部分的瑕疵(错误)(20130904) - 掌上百科编纂处 - Dictionary Discussion - 掌上百科 - PDAWIKI - Powered by Discuz!
外研社的现代英汉词典、现代汉英词典[20140430] - 外语学习交流区 - Foreign Language Learning - 掌上百科 - PDAWIKI - Powered by Discuz!
英汉部分不确定,小语种是全新的,19-22年的课题项目。
现在有新的工具,似乎可以提供更高的OCR品质。我发两个识别测试样本,图片为《新时代西汉大词典》正文第2页。
1)Goolge Gemini 2.0 Pro
abacal / abancaíno
abacal adj. Filip. 麻蕉的; 马尼拉麻的 || m. Filip. 麻蕉地
abacalero, ra adj. Filip. 麻蕉的; 马尼拉麻的 || m. f. Filip. 麻蕉农;马尼拉麻商; 马尼拉麻织品商人
abacería f. 食品杂货店
abacero,ra m. f. 食品杂货店老板
abacía f. Amér. 双子植物
abacial adj. 1.修道院长(abad, abadesa)的 2. 修道院的: edificios ~es 修道院的建筑
ábaco m. 1.算盘: ~ chino 中国算盘 / calcular en ~ 用算盘计算,打算盘 2.(用手操作的)计分板, 计分盘 3.【建】圆柱顶板 4.【数】列线图,算图, 诺模图 5. 装饰板 6.⟨古⟩棋盘 7.【矿】洗矿槽
abacorado, da p. p. de abacorar || adj. Colomb., Venez. 被追逼的; 被骚扰的; 被追踪的
abacorar tr. 1. Amér. 大胆着手 2. Amér. (买卖) 3. Can., Colomb., Venez. 追逼; 骚扰; 追踪 4. Cuba 猥亵地走近(舞伴)
abacteriano, na adj. 无菌的; 非细菌性的
abactinal adj.【动】离辐的,反口的
abactor m. 盗窃牲口的贼
abad m. 1.修道院院长 2.(加利西亚、纳瓦拉等省的) 神父 3.教士委员会主持人 4.(某些教堂)最高神职 5.【昆】斑蝥, 西班牙芫青 6. Can. 鳄鱼
abada f.【动】犀牛
Abadán n. pr. 1.阿巴丹[伊朗西南部港市] 2. 阿巴丹岛[伊朗西南部]
Abaddon n. pr.【宗】1. 亚巴顿(基督教《圣经·启示录》中的毁灭之神) 2. 地狱, 无底坑
abadejo m. 1.【鱼】鳕鱼 2.【鸟】戴菊莺 3. 芫青 4. 斑蝥, 西班牙芫青 5.(安的列斯群岛海域的) 鲐鱼 (Serranus inters ticiales) ◇ ~ largo【鱼】鳕; 江鳕; 蓝鳕
abadengo, ga adj. 修道院长(abad)的职位或职权的: tierra ~a 修道院院长的辖区 || m. 1. 修道院财产 2. 修道院院长财产的占有者
abadernar tr.【海】用(一至二米长的)短索栓: ~ la caña del timón 用短索栓住舵柄
abadesa f. 女修道院院长
abadí adj. s. (11世纪科尔多瓦哈里发统治垮台后由 Ismail ben Abbad 在塞维利亚建立的)阿巴特王朝的(人)
abadía f. 1.修道院院长 (abad o abadesa) 的职位 2.(修道院院长管辖的)教堂, 修道院 3. 修道院财产或收入 4. 教区神父的住宅 5.(加利西亚教士的)死亡税
abadiado m. Ar. 1.修道院院长(abad o adadesa) 的职位 2. (修道院院长管辖的)教堂, 修道院 3.修道院院长的辖区
abadiato m. → abadiado
ab aeterno ⟨拉⟩自古以来, 自太古以来
abafo, fa adj. 未染色的; 天然色的
abagó m. Colomb. (农村用语)精选部分
abajadera f. 1.→ abajadero 2. Amér. 劣质烟草
abajadero m. 斜坡
abajamiento m. 1.下降, 下落 2.⟨古⟩下贱; 低声下气
abajar intr., tr. →bajar
abajeño, ña adj. s. 1. Méx. (来自)沿海的(人);(来自)低地的(人) 2. Argent. 南方的(人)
abajera f. 1.低矮的橄榄树枝 2. Argent. (垫在马鞍子下面)鞍布
abajero, ra adj. →abajeño
abajino, na adj. Chile, Colomb. 1. →abajeño 2. 北方省份居民的 || m.f. 北方省份居民
abajo adv. 1.向下: Echaron (Tiraron) la puerta ~. 他们把门推倒。2.在下面,在底下: El cartero está ~. 邮递员在下面。/ Abajo hay gente esperando. 下面有人等。/ Vete ~ a abrir la puerta. 你下去开门。3.(放在某些名词后面) 向下: cuesta ~ 下坡; 往下坡去 / río (在)下游;顺流而下 / escaleras ~ 在楼下; 往楼下 4.(用于讲话、写文章等)在下面,后面: Véase más ~. 见下文。/ el pasaje citado más ~ 在后面所引章节 / Esto lo explicaré más ~. 这一点我在下面再讲。5.⟨古⟩ →debajo || interj. 打倒! : ¡Abajo el tirano! 打倒暴君! /¡~ los impuestos! 废除苛捐杂税! ◇ ~ de Amér. ⟨口⟩① 在…之下 ② 不足, 不够 de ~ 下面; en el cuarto de ~ 在下面的房间里 de arriba ~ ① 从上往下; 从头到底: Miró de arriba ~ a un desconocido. 他对陌生人上下打量了一下。② 完全地, 全部地: rebajar de arriba ~ 全部商品减价出售 desde ~ 从下面(看): Desde ~ la casa parecía alta. 从下面看, 这房子显得很高。/ Visto desde ~ no presenta problemas. 从下面往上看, 这没有问题。hacia ~ 向下: El humo va hacia ~. 烟往下冒。irse ~ 倒塌, 失败, 落空 los de ~ 下层的人: Los de ~ nunca dicen nada. 人微言轻。venirse ~ 倒塌; 垮台; 落空: El techo se vino ~. 屋顶塌了下来。/ El plan se vino ~. 计划破产了。
abajote adv. ⟨口⟩在下面,在底下
abalanzar 4 tr. 1.用(天平)称; 使(天平)平 2. 使平衡; 使均衡 || prnl. 1.向…冲过去: Me abalancé a la ventana. 我冲到窗口。/ El público se abalanzó hacia la puerta. 观众向大门口拥去。2.扑上去(抢、抓、打): Los niños se abalanzaron sobre los pasteles. 孩子们扑过去抢糕点。/ Se abalanzó sobre el ladrón. 他扑向小偷。/ El águila se abalanzó sobre la presa. 老鹰向着猎物猛扑下来。3. 奋不顾身地干; 仓促行事: ~se a los peligros 不顾危险蛮干 4. Argent.(马)用后足直立, 人立
abalar tr. 1. Gal., León, Sal. 摇动, 晃动 2. 搬动, 移动 3. 驱赶
abalaustrado, da p. p. de abalaustrar || adj. 成栏杆状的
abalaustrar tr. Cuba 给…装上栏杆; 使成栏杆状
abaldonadamente adv. ⟨古⟩大胆地, 勇敢地
abaldonamiento m. ⟨古⟩大胆, 勇敢
abaldonar tr. 1.→envilecer 2. 侮辱, 凌辱 3.⟨古⟩ 放弃; 交出 || prnl. ⟨古⟩→entregarse
abaleado, da p. p. de abalear || adj. 有麻子的
abaleador,ra m. f. (扬场时)清除谷物中禾秆杂物的人
abaleadura f. 1.(扬场时用扫帚)清除谷物中禾秆杂物 2. pl. (扬场后留下的)禾秆杂物
abalear I tr. (扬场时用扫帚)清除(谷物中的禾秆杂物): Estaba en la era abaleando un montón de centeno. 他在打谷场上清除黑麦中的禾秆杂物。
abalear II tr. Amér. 枪击;枪杀
abaleo I m. 1.(扬场时用扫帚)清除谷物中禾秆杂物: Tras aventar el grano es necesario proceder a su ~. 谷物扬场后还得清除禾秆杂物。2.(扬场时清除谷物中禾秆杂物的)扫帚 3.扎扫帚用的硬草
abaleo II m. Colomb. 枪击;枪杀
abalienación f. 精神紊乱,精神错乱
abalienado, da adj. 精神紊乱的, 精神错乱的
abalizamiento m. 设置浮标; 用浮标指示
abalizar 4 tr. 1.为…设浮标, 用浮标指示: La entrada del puerto había sido convenientemente abalizado. 进入港口的地方都已规规矩矩放上浮标。2. 用航标指示(机场跑道、公路的岔道) || prnl.【海】确定方位
aballar I tr. 1.移动 Ú. t. c. intr. , prnl. 2. 赶(牲口) 3. 放下, 降下 Ú. t. c. intr. 4. Sal. 松(土) 5. Sal. 运输, 运送
aballar II tr. 1. 使(画的色彩)变浅 2.⟨古⟩推倒
aballestar tr. 1.【海】绞紧(缆绳) 2. 拉(弹弓)
abalone m.【动】鲍(软体动物, 俗称鲍鱼, 古称石决明)
abalorio m. 1. 玻璃珠子串: Vestía traje regional y unos graciosos ~s le rodeaban el cuello. 她穿着当地的服装, 脖子挂着讨人喜欢的几串玻璃珠子。2.玻璃珠子 ◇ no valer un ~ 一文不值
abaluartar tr. 在…上修堡垒, 在…上构筑工事
abambolo m. (生活在海底的)大嘴鱼 (Malacocephalus laevis)
abamperio m.【电】电磁安(培)
abanador m. And., Can. (扇火用的)蒲扇
abanar tr. 1.扇 2. And., Can. 扇(火)
abancaíno, na adj.【秘鲁】阿班凯(Abancay)的; 阿班凯人的
|| m.,f. 阿班凯人
2)textin文档解析
品
abacal adj.Filip.麻蕉的;马尼拉麻的m.Filip.麻蕉地
abacalero,ra adj. Filip.麻蕉的;马尼拉麻的l m.f.Filip.麻焦农;马尼拉麻商;马尼拉麻织品商人
abacería f.食品杂货店
abacero,ra m.f.食品杂货店老板
abacía f. Amér.双子植物
abacial adj.1.修道院院长(abad,abadesa)的2.修道院的:edificios~es 修道院的建筑
ábaco m.1.算盘:~chino 中国算盘/calcular en~用算盘计算,打算盘2.(用手操作的)计分板,计分盘3.【建】圆柱顶板4.【数】列线图,算图,诺模图5.装饰板6.<古>棋盘7.【矿】洗矿槽
abacorado,da p.p.de abacorar ll adj. Colomb., Venez.被追逼的;被骚扰的;被追踪的
abacorar tr. 1.Amér.大胆着手2.Amér.野心勃勃垄断(买卖)3.Can.,Colomb.,Venez.追逼;骚扰;追踪4.Cuba 猥亵地走近(舞伴)
abacteriano,na adj.无菌的;非细菌性的
abactinal adj.【动】离辐的,反口的
abactor m.盗窃牲口的贼
abad m.1.修道院院长2.(加利西亚、纳瓦拉等省的)神父3.教士委员会主持人4.(某些教堂)最高神职5.【昆】斑蝥,西班牙芜青6.Can.鳕鱼abada f.【动】犀牛
Abadan n.pr.1.阿巴丹[伊朗西南部港市]2.阿巴丹岛[伊朗西南部]
Abaddon n.pr.【宗】1.亚巴顿(基督教《圣经·启示录》中的毁灭之神)2.地狱,无底坑
abadejo m.1.【鱼】鳕鱼2.【鸟】戴菊莺 3.芜青4.斑蝥,西班牙芜青5.(安的列斯群岛海域的)鮨鱼(Serranus intersticiales)~largo【鱼】鳕;江鳕;蓝鳕
abadengo,ga adj.修道院院长(abad)的职位或职权的:tie-rra~a修道院院长的辖区m.1.修道院院长的辖区和财产2.修道院院长财产的占有者
abadernar tr.【海】用(一至二米长的)短索栓:~ la caña del timón 用短索栓住舵柄
abadesa f.女修道院院长
abadí adj.s.(11世纪科尔多瓦哈里发统治垮台后由 Ismail ben Abbad 在塞维利亚建立的)阿巴特王朝的(人)
abadía f. 1.修道院院长(abad o abadesa)的职位2.(修道院院长管辖的)教堂,修道院3.修道院院长的辖区、职位、财产或收入4.教区神父的住宅5.(加利西亚给教士的)死亡税
abadiado m. Ar.1.修道院院长(abad o adadesa)的职位2.(修道院院长管辖的)教堂,修道院3.修道院院长的辖区
abadiato m. → abadiado
ab aeterno<拉>自古以来,自太古以来
abafo,fa adj.未染色的;天然色的
abagó m.Colomb.(农村用语)精选部分
abajadera f. 1.→abajadero 2.Amér.劣质烟草
abajadero m.斜坡
abajamiento m.1.下降,下落2.<古>下贱;低声下气
abajar intr.tr. →bajar
abajeño, ña adj.s.1.Méx.(来自)沿海的(人);(来自)低地的(人)2.Argent.南方的(人)
abajera f.1.低矮的橄榄树枝2.Argent.(垫在马鞍子下面的)鞍布
abajero,ra adj. →abajeño
abajino,na adj.Chile,Colomb. 1.→abajeno 2.北方省份居民的m.f.北方省份居民
abajo adv.1.向下:Echaron(Tiraron) la puerta ~.他们把门推倒。2.在下面,在底下:El cartero está~.邮递员在下面。/Abajo hay gente esperando.下面有人等。/Vete~a abrir la puerta.你下去开门。3.(放在某些名词后面)向下:cuesta~下坡;往下坡去/río~(在)下游;顺流而下/escaleras~在楼下;往楼下4.(用于讲话、写文章等)在下面,后面:Véase más~. 见下文。/el pasaje citado más ~
后面所引章节/Esto lo explicaré más~.这一点我在下面再讲。5.<古>→debajo|| interj.打倒!:jAbajo el tirano!打倒暴君!/i~los impuestos!废除苛捐杂税!~de Amér.(口)①在···之下②不足,不够 de~下面:en el cuarto de~ 在下面的房间里 de arriba~①从上往下;从头到底:Miró de arriba~a un desconocido.他对陌生人上下打量了一下。②完全地,全部地:rebajar de arriba~全部商品减价出售 desde~从下面(看):Desde ~ la casa parecía alta.从下面看,这房子显得很高。/Visto desde~esto no presenta problemas. 从下面往上看,这没有问题。hacia~向下:El humo va hacia~.烟往下冒。irse~倒塌;失败,落空 los de ~ 下层的人:Los de ~ nunca dicen nada.人微言轻。venirse~ 倒塌;垮台;落空:El techo se vino~.屋顶塌了下来。/El plan se vino ~.计划破产了。
abajote adv.<口>在下面,在底下
abalanzar 4 tr.1.用(天平)称;使(天平)平2.使平衡;使均衡3.猛投,猛掷|prnl.1.向···冲过去:Me abalancé a la ventana.我冲到窗口。/El público se abalanzó hacia la puerta. 观众向大门口拥去。2.扑上去(抢、抓、打):Los niños se abalanzaron sobre los pasteles.孩子们扑过去抢糕点。/Se abalanzó sobre el ladrón. 他扑向小偷。/El águila se abalanzó sobre la presa. 老鹰向着猎物猛扑下来。3.蛮干;仓促行事:~se a los peligros 不顾危险蛮干4.Argent.(马)用后足直立,人立
abalar tr. 1.Gal.,León,Sal.摇动,晃动 2.搬动,移动3.驱赶
abalaustrado,da p.p.de abalaustrar || adj.成栏杆状的
abalaustrar tr.Cuba 给···装上栏杆;使成栏杆状
abaldonadamente adv.<古>大胆地,勇敢地
abaldonamiento m.<古>大胆,勇敢
abaldonar tr.1.→envilecer 2.侮辱,凌辱3.<古>放弃;交出prnl.<古>→entregarse
abaleado,da p.p.de abalear |l adj.有麻子的
abaleador,ram.f.(扬场时)清除谷物中禾秆杂物的人
abaleadura f.1.(扬场时用扫帚)清除谷物中禾秆杂物2.pl.(扬场后留下的)禾秆杂物
abalear I tr.(扬场时用扫帚)清除(谷物中的禾秆杂物):Estaba en la era abaleando un motón de centeno.他在打谷场上清除黑麦中的禾秆杂物。
abalear II tr.Amér.枪击;枪杀
abaleo I m.1.(扬场时用扫帚)清除谷物中禾秆杂物:Tras aventar el grano es necesario proceder a su ~.谷物扬场后还得清除禾秆杂物。2.(扬场时清除谷物中禾秆杂物的)扫帚3.扎扫帚用的硬草
abaleo II m. Colomb.枪击;枪杀
abalienación f.精神紊乱,精神错乱
abalienado,da adj.精神紊乱的,精神错乱的
abalizamiento m.设置浮标;用浮标指示
abalizar 4 tr.1.为···设浮标,用浮标指示:La entrada del puerto había sido convenientemente abalizado.进入港口的地方都已规规矩矩放上浮标。2.用航标指示(机场跑道、公路的岔道)prnl.【海】确定方位
aballar I tr.1.移动U.t.c.intr,prnl.2.赶(牲口)3.放下,降下U.t.c.intr.4.Sal.松(土)5.Sal.运输,运送
aballar II tr.1.使(画的色彩)变浅2.<古>推倒
aballestar tr.1.【海】绞紧(缆绳)2.拉(弹弓)
abalone m.【动】鲍(软体动物,俗称鲍鱼,古称石决明)
abalorio m. 1.玻璃珠子串:Vestía traje regional y unos graciosos ~s le rodeaban el cuello. 她穿着当地的服装,脖子挂着讨人喜欢的几串玻璃珠子。2.玻璃珠子no valer un ~一文不值
abaluartar tr.在···上修堡垒,在···上构筑工事
abambolo m.(生活在海底的)大嘴鱼(Malacocephalus laevis)
abamperio m.【电】电磁安(培)
abanador m.And.,Can.(扇火用的)蒲扇
abanar tr.1.扇2.And.,Can.扇(火)
abancaíno,na adj.【秘鲁】阿班凯(Abancay)的;阿班凯人的lm.f.阿班凯人
Can you provide more details on how to utilize gemini ocr for pdf files? Or will you have some time to do the ocr for the pdf as mentioned at Longman New Junior English Dictionary mdx ?
The result of Gemini 2.0 Flash OCR.
alcohol
al-co-hol /'ælkahol/ noun (no plural): a strong liquid, in beer and other drinks, which makes you feel drunk
al-co-hol-ic /ælkə’holık/ adjective containing alcohol: an alcoholic drink
a-lert /ə’la:t/ adjective awake and quick to notice things
al-ge-bra /'ældzıbrǝ/ noun (no plural) a kind of MATHEMATICS in which you use letters to represent numbers
a-li-en /'eılıǝn/ noun a creature from another world: a spaceship full of aliens
a-light /ə’laıt/ adjective burning; on fire: The house was alight.
a-like /ə’laık/ adjective, adverb the same in some way: They were all dressed alike in white dresses. COMPARE: similar
a-live /ə’laıv/ adjective living; not dead: Is his grandfather still alive?
all /ɔ:l/ adjective, adverb 1 the whole amount of; Don’t eat all that bread! 2 every one of: all the children 3 completely: He was dressed all in black. 4 all over everywhere: I’ve been looking all over for you. 5 not at all not in any way: I’m not at all hungry. She didn’t understand it at all.
al-ler-gic /ə’lə:dzık/ adjective 1 caused by an allergy: an allergic rash 2 becoming ill when you eat, drink, or touch a particular thing: I’m allergic to cats.
al-ler-gy /'ælədzi/ noun (plural allergies) an illness that causes you to become ill every time you eat, drink, or touch a particular thing
alley /'ælt/ noun a very narrow road in a town
al-li-ance /ə’laıəns/ noun an agreement between countries or groups to work together for a purpose
al-li-ga-tor /'ælıgeıtǝ/ noun a large animal with a long body and short legs which lives on land and in rivers in some countries
al-low /ə’lau/ verb to let someone do something: You’re not allowed to go in there. OPPOSITE: forbid
all right /ɔ:l 'raıt/ (also alright) adjective, adverb 1 well; not hurt: Do you feel all right? 2 good enough; quite good: The film was all right but I’ve seen better ones. 3 yes; I agree: “Shall we go to town?” “All right, let’s go now.”
al-ly /'ælaı/ noun (plural allies) someone who helps you work or fight against someone else
al-most /'ɔ:lməust/ adverb nearly: It’s almost 9 o’clock.
a-lone /ə’ləun/ adjective, adverb 1 not with other people: He lives alone. COMPARE: lonely 2 only: She alone knows the truth. 3 leave someone or something alone to stop touching or disturbing someone or something: Leave the dog alone!
a-long /ə’loŋ/ preposition, adverb 1 following the length of; from end to end of something long and thin: We walked along the road. the houses along the street see picture on page 166 2 forward: Move along please! 3 with you: Can I bring my friend along?
a-long-side /ə’loŋ’saıd/ preposition, adverb by the side of something
a-loud /ə’laud/ adverb in a voice that is easy to hear: She read the story aloud.
al-pha-bet /'ælfəbet/ noun the letters of a language in a special order: The English alphabet begins with A and ends with Z.
al-pha-bet-i-cal /ælfə’betıkl/ adjective in the same order as the letters of the alphabet: The words in this dictionary are in alphabetical order.
al-read-y /ɔ:l’redı/ adverb 1 before now: He has seen that film twice already. 2 by this or that time: It was already raining when we started our journey. LOOK AT: just and yet
Gemini 2.0 的api可以直接处理pdf文件,但因为输出窗口限制(8192 tokens),我的经验是把pdf分解为jpg图片,一个个发给它ocr、识别比较可靠。在OCR的时候,我用的prompt大致如下,可根据具体情形调整:
OCR识别图片中的文字。页眉部分表示页码的阿拉伯数字,置于“〈〉”符号之中,(页眉同一行的其余文字删除不要),且把它放在输出最开始的位置,下面加一空行;假如不存在页码,用“〈?〉”占位表示。这是一本拉丁语汉语词典,注意拉丁文的正确拼写,不要忽略长音符号。左右分栏的页面,识别阅读顺序为先左栏再右栏。正文部分首尾要完整识别,不要遗漏。识别结果以plain text格式输出;页面有表格用markdown格式表示,前后加“
markdown ...
”标志。切记,下面这里是至关重要的要求和标准,务必满足:同一词条中的相关释义文字要编辑合并在一起,不可像图中那样因为版面限制而断开分行。