《拉鲁斯法汉双解词典》 文本数据(OCR)

搞成这样就行了,没法解析的300个词条用ai、正则、手工都可以处理。程序并不是万能的,非要用程序一次性完美解决,万一卡住了,速度、效率反而不如加入少量人工操作。我记得马斯克的tesla工厂起初打算全机器人自动化的,后来就真的卡住了,路线走不通,然后改成常规的人机协作模式,就快速量产了。

zh这个标签很多做词典的人在用,但我觉得怪怪的,它应该是拼音zhong的缩写,这种混用跟其他英文单词的缩写放在一起不搭。

没法解析的很多是不规范的或者是比较复杂的情况,确实写一个完美覆盖所有情况的规则比较难,主要是中法文混合的问题,其实现在能解析的可能开头不是中文的地方也有问题。

另外fr和zh是 ISO 639-1的两位语言代码

有标准就好,虽然归根到底还是拼音源的,像国际域名,又成了cn。我个人其实偏好三位代码,但既不是chi也不是zho,而是chn。

这是做一本词典的电子版,又不是校经,我个人觉得没有必要,而且可能有上千处类似的改动,一一加注是很麻烦的。如果实在对这些校正感兴趣,github上有好几万个 diff 记录可以查。

看起来挺不错哦,大佬弄好了么,可以分享出来大家一起浏览浏览不?

看前面提到中法文版不一致,要是实在讲究的话,中法文两图对照也是可以搞搞的。但我个人觉得两图对照用途不大,毕竟中文版算是超集,小错误会有,但也算是在可容忍度以内的吧。

高清图像版公开分享需要解决原始扫描制作者的同意授权问题,但他似乎已经网络失踪了,暂时我没法擅作主张将之公之于众。先等一段时间,如果实在没消息,后面再商议如何处置。

感觉我比你实用主义多了。就我个人角度而言,图片是不是高清也不重要,更多也是给文字版有一个对照版本。也就是在看文字版产生怀疑的时候,可以方便地看到印刷版的原貌。归根结底,还是为了学法语学得确定一些。要是方便的话,可以用非高清的图片嘛。而且这样的话文件也能更小呢。

高清版图片现在是检查过没有匹配错误了,参数和代码都在github。非高清图像有不少匹配和切分错误,之前一直没完全解决,主要是因为各种噪点和倾斜问题要单独处理,现在重新修正非高清版图像问题感觉没必要。 另外这个文字版其实就是用图像版对比校对的,应该没有多少错误了,法文是对比原版校对过的,很多双解版引入的错误都改了。

想要图文对照印刷版,怕的就是这个“应该”嘛。
出版社带薪专人校对也会出错,要保证这里的文本真的没错并不是容易的事情,所以才想着有个图文对照,在对文字产生怀疑的时候也有个考据。

GoldenDict 版中 bout这个词 4 后面就是 6 了

此时要是如果有个图文对照就能知道问题在哪里了

电子版也是这样

原书双解版和法文版都是错的,所以没改这里。

看来中文版的文字都是一个出处。

这么一看感觉就明显了。6应该是5。

中文版翻译的时候估计也是用的批量字符替换,法文错,中文就跟着错。

修改了加标签的脚本,整合了标签的版本和词头扩充的版本
代码还是在github,不过这个有285个词条不能正确解析

拉鲁斯法汉双解词典_xml.zip (8.2 MB)

我把这285个不能正确解析的词条单独提取了出来,试着用ai加标签,效果貌似还行。像<grammar>这个标签加错了,是因为我的指令不明确,也没有给包含这个内容的示例。

words_without_tags.json.txt (234.8 KB)

[
  {
    "headword": "émulsion",
    "text": "émulsion [emylsjɔ̃] n. f. (du lat. emulsum “extrait”). ❶ Particules très fines d'un liquide en suspension dans un autre liquide 乳状液;〔化〕乳胶,乳浊液;乳剂: Une émulsion d'huile dans l'eau. ❷ PHOT. Préparation sensible à la lumière dont sont enduits les films et les papiers photographiques. 〔摄〕照相乳胶,照相乳剂",
    "xml": "<entry><head><word>émulsion</word> <pron>[emylsjɔ̃]</pron> <pos>n.</pos> <pos>f.</pos> <etym>(du lat. emulsum “extrait”).</etym></head> <def><num value='1'>❶</num><fr> Particules très fines d'un liquide en suspension dans un autre liquide </fr><zh>乳状液;〔化〕乳胶,乳浊液;乳剂</zh>:<example><fr> Une émulsion d'huile dans l'eau.</fr></example></def> <def><num value='2'>❷</num> <cat_fr>PHOT.</cat_fr><fr> Préparation sensible à la lumière dont sont enduits les films et les papiers photographiques.</fr><zh> 〔摄〕照相乳胶,照相乳剂</zh></def></entry>"
  },
  {
    "headword": "enquêteur",
    "text": "enquêteur, euse et trice [ɑ̃ketœʀ, -øz] et [-tris] n. Personne qui mène une enquête. 调查者",
    "xml": "<entry><head><word>enquêteur, euse et trice</word> <pron>[ɑ̃ketœʀ, -øz]</pron> et <pron>[-tris]</pron> <pos>n.</pos></head><def><fr> Personne qui mène une enquête.</fr><zh> 调查者</zh></def></entry>"
  },
  {
    "headword": "enregistreur",
    "text": "enregistreur, euse [ɑ̃ʀəʒistʀœʀ, -øz] adj. et n. m. Se dit d'un appareil qui enregistre un phénomène physique, une mesure, une somme, etc. 自动记录的 / 〔技〕自动记录仪(表): Caisse enregistreuse. 收银柜,收款处 / Un enregistreur de vitesse. 速度记录仪",
    "xml": "<entry><head><word>enregistreur, euse</word> <pron>[ɑ̃ʀəʒistʀœʀ, -øz]</pron> <pos>adj.</pos> et <pos>n.</pos> <pos>m.</pos></head><def><fr> Se dit d'un appareil qui enregistre un phénomène physique, une mesure, une somme, etc. </fr><zh>自动记录的</zh> / <zh>〔技〕自动记录仪(表)</zh>:<example><fr> Caisse enregistreuse.</fr><zh> 收银柜,收款处</zh></example> /<example><fr> Un enregistreur de vitesse.</fr><zh> 速度记录仪</zh></example></def></entry>"
  },
  {
    "headword": "entre",
    "text": "entre [ɑ̃tʀ] prép. (lat. inter). -I. En corrélation avec et ou suivi d'un n. ou d'un pron. au pl., indique [与et 搭配使用,或后接复数名词或代词]在…之间;在…中间: ❶ L'espace qui sépare des choses ou des personnes 在…之间[表示位置]: Tomber en panne entre Blois et Orléans. 〈转〉在布卢瓦和奥尔良之间抛锚 / Elle était assise entre eux. 她坐在他们中间。❷ Un intervalle de temps entre deux moments 在…之间[表示时间]: Entre midi et deux heures. 在正午和下午两点之间 ❸ Un état intermédiaire 在…之间[表示状态]: Une couleur entre le jaune et le vert. 介于黄与绿之间的颜色 ❹ Une accumulation 在…之间[表示累积]: Entre son emploi et ses recherches, elle est débordée. 本职工作加上研究工作使她忙得不可开交。❺ L'ensemble au sein duquel une possibilité de choix est offerte 在…中间[表示选择]: Choisir entre plusieurs candidats. 在好几个候选人中进行选择 ❻ Un rapport de réciprocité, de similitude ou de différence 在…之间[表示相互关系]: L'égalité entre les hommes. 人与人之间的平等 / Une grande analogie entre deux situations. 两个情景之间的极大相似性 ❼ Un ensemble défini de personnes excluant tout élément extérieur 只在…之间[表示排他性]: Une soirée entre nous, entre amis, entre médecins. 我们自己的[朋友之间的、医生内部的]晚会 -II. S'emploie en composition pour indiquer la réciprocité ou une position intermédiaire [用于复合词,表示“之间”、“互相”“一半,不完全”的意思]: S'entraider. 互相帮助 / Entre-temps. 在此期间,在这时候,此时 -III. S'emploie dans certaines locutions. [用于短语中]  D'entre, parmi 在…中间的: Certains d'entre eux étaient blessés. 他们中间有一些人受伤了。‖ Entre nous, soit dit entre nous, je vous le dis en toute confidence. 只在我们之间谈谈。‖ Entre tous, par-dessus tous les autres 尤其,特别,主要地: Un roman de Balzac qu'elle affectionne entre tous. 她尤为喜欢的一部巴尔扎克的小说",
    "xml": "<entry><head><word>entre</word> <pron>[ɑ̃tʀ]</pron> <pos>prép.</pos> <etym>(lat. inter).</etym></head> <grammar><num value='1'>-I.</num><fr> En corrélation avec et ou suivi d'un n. ou d'un pron. au pl., indique </fr><zh>[与et 搭配使用,或后接复数名词或代词]在…之间;在…中间</zh>:</grammar> <def><num value='1'>❶</num><fr> L'espace qui sépare des choses ou des personnes </fr><zh>在…之间[表示位置]</zh>:<example><fr> Tomber en panne entre Blois et Orléans.</fr><zh> 〈转〉在布卢瓦和奥尔良之间抛锚</zh></example> /<example><fr> Elle était assise entre eux.</fr><zh> 她坐在他们中间。</zh></example></def> <def><num value='2'>❷</num><fr> Un intervalle de temps entre deux moments </fr><zh>在…之间[表示时间]</zh>:<example><fr> Entre midi et deux heures.</fr><zh> 在正午和下午两点之间</zh></example></def> <def><num value='3'>❸</num><fr> Un état intermédiaire </fr><zh>在…之间[表示状态]</zh>:<example><fr> Une couleur entre le jaune et le vert.</fr><zh> 介于黄与绿之间的颜色</zh></example></def> <def><num value='4'>❹</num><fr> Une accumulation </fr><zh>在…之间[表示累积]</zh>:<example><fr> Entre son emploi et ses recherches, elle est débordée.</fr><zh> 本职工作加上研究工作使她忙得不可开交。</zh></example></def> <def><num value='5'>❺</num><fr> L'ensemble au sein duquel une possibilité de choix est offerte </fr><zh>在…中间[表示选择]</zh>:<example><fr> Choisir entre plusieurs candidats.</fr><zh> 在好几个候选人中进行选择</zh></example></def> <def><num value='6'>❻</num><fr> Un rapport de réciprocité, de similitude ou de différence </fr><zh>在…之间[表示相互关系]</zh>:<example><fr> L'égalité entre les hommes.</fr><zh> 人与人之间的平等</zh></example> /<example><fr> Une grande analogie entre deux situations.</fr><zh> 两个情景之间的极大相似性</zh></example></def> <def><num value='7'>❼</num><fr> Un ensemble défini de personnes excluant tout élément extérieur </fr><zh>只在…之间[表示排他性]</zh>:<example><fr> Une soirée entre nous, entre amis, entre médecins.</fr><zh> 我们自己的[朋友之间的、医生内部的]晚会</zh></example></def> <grammar><num value='2'>-II.</num><fr> S'emploie en composition pour indiquer la réciprocité ou une position intermédiaire </fr><zh>[用于复合词,表示“之间”、“互相”“一半,不完全”的意思]</zh>:<example><fr> S'entraider.</fr><zh> 互相帮助</zh></example> /<example><fr> Entre-temps.</fr><zh> 在此期间,在这时候,此时</zh></example></grammar> <grammar><num value='3'>-III.</num><fr> S'emploie dans certaines locutions. </fr><zh>[用于短语中]</zh>  <phrase><fr>D'entre, parmi </fr><zh>在…中间的</zh>:<example><fr> Certains d'entre eux étaient blessés.</fr><zh> 他们中间有一些人受伤了。</zh></example></phrase>‖ <phrase><fr>Entre nous, soit dit entre nous, je vous le dis en toute confidence. </fr><zh>只在我们之间谈谈。</zh></phrase>‖ <phrase><fr>Entre tous, par-dessus tous les autres </fr><zh>尤其,特别,主要地</zh>:<example><fr> Un roman de Balzac qu'elle affectionne entre tous.</fr><zh> 她尤为喜欢的一部巴尔扎克的小说</zh></example></phrase></grammar></entry>"
  },
  {
    "headword": "épicène",
    "text": "épicène [episɛn] adj. (gr. epikoinos “commun”). LING.〔语言〕❶ Se dit d'un nom commun au mâle et à la femelle d'une espèce, comme l'aigle, la souris, le crapaud. 共性的, 两性通用的 [指不分雌雄, 词性不变的名词,如: l'aigle (鹰), la souris (鼠), le crapaud (蟾蜍)] ❷ Se dit d'un nom, d'un pronom, d'un adjectif qui ne varie pas selon le genre 共性的, 两性通用的 [指男女通用, 词形无变化的名词、代词、形容词] (ex. : élève (学生) ou enfant (孩子)).",
    "xml": "<entry><head><word>épicène</word> <pron>[episɛn]</pron> <pos>adj.</pos> <etym>(gr. epikoinos “commun”).</etym></head> <usage><cat_fr>LING.</cat_fr>〔语言〕</usage><def><num value='1'>❶</num><fr> Se dit d'un nom commun au mâle et à la femelle d'une espèce, comme l'aigle, la souris, le crapaud.</fr><zh> 共性的, 两性通用的 [指不分雌雄, 词性不变的名词,如: l'aigle (鹰), la souris (鼠), le crapaud (蟾蜍)]</zh></def> <def><num value='2'>❷</num><fr> Se dit d'un nom, d'un pronom, d'un adjectif qui ne varie pas selon le genre</fr><zh> 共性的, 两性通用的 [指男女通用, 词形无变化的名词、代词、形容词]</zh><example> (ex. : élève (学生) ou enfant (孩子)).</example></def></entry>"
  },
  {
    "headword": "esperluette",
    "text": "esperluette [ɛspɛʀlɥɛt] n. f. (orig. obsc.). Signe typographique (&) représentant le mot et 表示 et 的印刷符号: Dubois & Fils. 杜布瓦父子 (On dit aussi 亦说 et commercial.)",
    "xml": "<entry><head><word>esperluette</word> <pron>[ɛspɛʀlɥɛt]</pron> <pos>n.</pos> <pos>f.</pos> <etym>(orig. obsc.).</etym></head><def><fr> Signe typographique (&) représentant le mot et </fr><zh>表示 et 的印刷符号</zh>:<example><fr> Dubois & Fils.</fr><zh> 杜布瓦父子</zh></example><rem> (On dit aussi <zh>亦说</zh> et commercial.)</rem></def></entry>"
  },
  {
    "headword": "est-ce que",
    "text": "est-ce que [ɛsk] adv. interr. S'emploie à la place de l'inversion du sujet et du verbe 用 est-ce que 时, 主谓语不用倒装: ❶ En tête de phrase lorsque la question appelle une réponse par oui ou par non 当提问要求用“是”或“不是”回答时, 用于句首: Est-ce que tu viens demain? ( = viens-tu demain?). 你明天来吗? Est-ce qu'il pleut beaucoup? (= pleut-il beaucoup?). 常下雨吗? ❷ FAM. Après un adverbe ou un pronom interrogatif 〈俗〉[放在疑问副词或疑问代词后面]: Quand est-ce qu'il vient? (= quand vient-il?). 他什么时候来?",
    "xml": "<entry><head><word>est-ce que</word> <pron>[ɛsk]</pron> <pos>adv.</pos> <pos>interr.</pos></head><def><fr> S'emploie à la place de l'inversion du sujet et du verbe </fr><zh>用 est-ce que 时, 主谓语不用倒装</zh>:</def> <def><num value='1'>❶</num><fr> En tête de phrase lorsque la question appelle une réponse par oui ou par non </fr><zh>当提问要求用“是”或“不是”回答时, 用于句首</zh>:<example><fr> Est-ce que tu viens demain? ( = viens-tu demain?).</fr><zh> 你明天来吗?</zh></example><example><fr> Est-ce qu'il pleut beaucoup? (= pleut-il beaucoup?).</fr><zh> 常下雨吗?</zh></example></def> <def><num value='2'>❷</num> <cat_fr>FAM.</cat_fr><fr> Après un adverbe ou un pronom interrogatif </fr><zh>〈俗〉[放在疑问副词或疑问代词后面]</zh>:<example><fr> Quand est-ce qu'il vient? (= quand vient-il?).</fr><zh> 他什么时候来?</zh></example></def></entry>"
  }
]

est-ce que这里也不太对,感觉前面是语法说明,但又没加括号什么的。
另外查出来有几十条实际上改了语法后标签加错了实际错误不止285条。

初步随便写了几行 css 试了试(颜色也是胡来的,请勿当真),效果马马虎虎。/ ◆ ‖ 这些没有标签的特别符号需要进一步处理。

此处的单词都是ai加的标签。

方便分享一下这本图片版词典的地址吗?论坛里似乎只能找到基于在线版的简版词典。感谢!

图片版没发布过,这个是我截的图,前面帖子也讨论过图片版问题,因为原来扫描的人联系不到了,直接公开发布不太好,所以只发了文字版。