《拉鲁斯法汉双解词典》网上有公开版本,但是词条只有1.5万左右,有点少了。于是乎整了一个Spider爬了两天,还没有爬完。电脑都干冒烟了,看来搞这个真只有服务器最合适。
足足准备了近8万个词头,但是似乎有效爬取词条数量只有20%左右,希望最终
《拉鲁斯法汉双解词典》网上有公开版本,但是词条只有1.5万左右,有点少了。于是乎整了一个Spider爬了两天,还没有爬完。电脑都干冒烟了,看来搞这个真只有服务器最合适。
足足准备了近8万个词头,但是似乎有效爬取词条数量只有20%左右,希望最终
只要比论坛的版本好,不用担心样式的问题。
你可以跟他要,前几个月刚爬的。不过没语音。
拉鲁斯官网的词典叫 Dictionnaire Français-Chinois,准确的翻译应该是“拉鲁斯法汉词典”,属于入门性质的简释词典。它词条有限,很可能就只有15000个,我用外研社正儿八经的《拉鲁斯法汉双解词典》最后一页验证,共18个词条,结果在Dictionnaire Français-Chinois 只能搜到一个单词,zoom。至于释义,显然也不是大家日常认知的双解性质的,只给出了简易汉语解释,比如对照一下 zone 这个词汇的完整释义,就看得很清楚了。
Dictionnaire Français-Chinois:
zone
nom féminin
- (surface délimitée)
区 [qū]
zone économique spéciale 经济特区 [jīngjì tèqū]
zone industrielle 工业区 [gōngyè qū]
zone piétonnière 步行区 [bùxíng qū]
zone résidentielle 住宅区 [zhùzhái qū]
zone de stationnement interdit 禁止停车区 [jìnzhǐ tíngchē qū]- GÉOGR
地带 [dìdài]
zone désertique 沙漠地带 [shāmò dìdài]
zone forestière 森林地带 [sēnlín dìdài]
zone tempérée 温带 [wēn dài]
zone tropicale 热带 [rè dài]
外研社《拉鲁斯法汉双解词典》:
zone [zon] n. f. (lat. zona “ceinture”, gr. zônê). ❶ Etendue de terrain, espace d’une région, d’une ville, etc., définis par certaines caractéristiques 区: Zone désertique、沙漠地带 / Zone résidentielle.住宅区,居住区 ❷ Territoire ou ensemble de territoires soumis à un statut, à un régime particulier 地区,区域:Zone de libre-échange.自由贸易区/ Zone libre et zone occupée sous l’occupation allemande.德国占领时期的非占领区和占领区 ❸ (Précédé de l’art. déf.前置定冠词). Espace, à la limite d’une ville, caractérisé par la misère de son habitat. 市郊贫民区 ❹ Espace, région délimitée sur une surface, sur un corps地带,地段,范围:Installer sa chaise longue dans la zone ensoleillée du jardin. 把长椅子放在花园的朝阳地带 ❺ Domaine limité, à l’intérieur duquel s’exerce l’action de qqn ou d’une collectivité〈转〉领域:Faire de la recherche dans une zone précise (syn. domaine).在一个具体确切的领域内从事研究工作 ❻ MATH. Portion de la surface d’une sphère limitée par deux plans parallèles qui la coupent. 〔数〕地带,球面带 ❼ GÉOGR. Espace délimité approximativement par des parallèles et auquel correspond un grand type de climat 〔地〕带:Zone tropicale, tempérée, polaire、热带;温带;极带 ❽ Zone à urbaniser par priorité → Z. U. P. ‖ Zone contiguë, bande maritime comprise entre la limite des eaux territoriales (12 milles nautiques) et une distance de 200 milles à partir des côtes, et qui est placée sous la souveraineté partielle de l’État côtier. 毗邻海域[指12海里与200海里之间的海域] ‖ Zone d’aménagement concerté → Z. A. C. ‖ Zone d’influence, ensemble d’États ou de territoires réservés à l’influence politique exclusive d’un Etat. 势力范围 ‖ Zone industrielle, zone spécialement localisée et équipée en vue d’accueillir des établissements industriels (abrév. Z. 1.). 工业区,工业发展区 ‖ Zone monétaire, ensemble de pays dont les monnaies respectives sont rattachées à celle d’un pays centre qui exerce un rôle dominant (zone franc) ou entre les monnaies desquels existent des liens particuliers. 货币区
拉鲁斯网上的 Dictionnaire Français-Chinois ,我怀疑是用 Google 翻译机翻的,然后随便做过一些人工整理,也许就语音部分还有点参考价值,它还是合成语音。
如果英文还可以,直接用 Français-Anglais 词典 ,也比所谓的“拉鲁斯法汉词典”强一大截。
这个网站都有索引,用词表去撞实在是费力不讨好。不太理解为什么这么爬,你这样肯定没以前的人爬的全。他至少熟悉拉鲁斯网站和爬虫技术。
补充一下,在我印象中,拉鲁斯并没有很重视官网的双语词典,应该是不会有更新的(app我记得很多年没有更新了),更何况是无人在意的中文。再爬一次也基本是浪费时间。
不行,我得向拉鲁斯团队道歉,专门查了更新日志,2018年以来多年不更新之后,2023年更新了一次法英,2024年更新了一次法德和法西。毕竟是付费卖的app,看来没有完全放弃。至于法汉,估计难有编辑修订人员,连app都没有存在过。
说是2018年也是好听,都是修兼容和bug,从来没提到词典内容的实质性更新,最早可以追溯到2009年推出app,很可能自2009年以来到2020年拉鲁斯官网的双语词典都没有大的变动。拉鲁斯的主力是母语词典。
其实这样也很正常,其他几家欧洲词典出版社也差不多。
通报最终爬取的结果:
未找到内容: zymotique
已记录进度: zymotique(77281/77283)
未找到内容: zythologie
已记录进度: zythologie(77282/77283)
未找到内容: zythum
已记录进度: zythum(77283/77283)
本次爬取结束!已累计完成 74970 个单词
成功爬取15162个词条
相比网上的字典15826词条,足足少了664条。
算了,还是没有折腾的必要了。白忙活一场。
备注:
上面准备的77283词头,是LAROUSSE官网公布的LAROUSSE法法索引。
看来官网的法汉词条是严重缩水的。
法汉又不是没有索引,用法法索引瞎折腾
还可以用序号爬的,每个词条还有前后索引,想爬全没那么难。
https://www.larousse.fr/dictionnaires/francais-chinois/x/793)