关于《辞源》文字版缺词问题

感谢[dooperdoo]的发现,当前文字版字条加词条共106427,与前言中介绍的总数106856相差429。这几天一直期待有高人能够补上,但每次都失望而去。
429对于修补来说不算个大数字,只是得先有缺失词条表(这个佛兄在做图像版时本来应该有完整词条表,可惜合并了同形词条,如果保留有原始数据,现在两相比较一下就行了;否则就得重新ocr,提取词头进行比对)。
不知大家有没有更好的办法。

辭源 第三版目录.rar (5.1 MB)
這是校對前的舊表,你有興趣的話可看下。

多谢佛兄!但看了下,这个索引有点价值,但不大。重复的词条有2305,远高于缺失的429,要命的是有一些该重复的没有重复,如“行行”。
不知佛兄还保存有原始的ocr数据没有?如有,希望能发一份。辞源的pdf有2g多,从百度云下载又太慢,还得再ocr,实在太麻烦了。

這個文字版,有些地方不規範,例如出現 “歎词”、“量词” 的簡體字(看“喲”和“颩”字條),雖然印刷版沒有簡體字的釋義。很奇怪。

“㠑嵬”詞條,漏掉了 closing quote:

南都賦:“其山則崆㟅嶱嵑,嵣㟐嶚剌,岝㟯㠑嵬,嶔巇屹𡿖。又 漢 王文考…

應當是:…嶔巇屹𡿖。 又 漢 王文考…

這種問題,讓我對這個文字版的來源覺得很疑惑。看來他不是來自出版社的數據。可是它也不是OCR,要不然會有很多錯字。

辭源的印刷版,據我所看到的,不會出現這種瑕玷。(不像漢語大字典的文字版,有不少毛病我發現印刷版居然也有。例如“杓”字條的釋義,排成“1, 2, 3, 3, 4” — 重複了“3”。又經常不分辨 ‘ ’ 和 “ ” 的兩種引文符號,用法不規範,甚至蠻亂。有的的地方根本看不懂引文在哪裡結束。)

还有一点,不同词典软件对Entry 和 headword的定义不尽相同,辞源自身的定义也要留心一下

这个数据我推测应该来自于网络版或usb版,应该还是较为可靠的。至于其中的一些错误应该是文本化过程的疏漏。
现在主要问题还是缺少的那些词条。我用了几天的时间才从网盘上把pdf下载下来,之后尝试一下ocr看能否把缺失部分比对出来。

如果是網路版,我很好奇它原來的專名和書名有沒有underline。如果有人用了 web crawler 去抓,有可能漏掉了那些 styling 嗎?

不是网络版 网络现在非常非常难弄下来。

办法是有,成本也会很高的。(40*25 最少吧,反爬太厉害了)

网络版爬下来的话,原网页长什么样,爬下来就是什么样。

唉,只查得三百多点。

I’m going to write in English because it’s easier for me to talk about this stuff in English.

A. from the body text (entry articles), I pulled all the phrases with subscript numbers in quotation marks.
B. from the ‘h3’ header tag, I pulled all the phrases with subscript numbers.

Below are the phrases that are not duplicates, including “Xn Yn”, but excluding “X Yn”. Total: 139.

So, these should be all the the phrases missing from the 文字版 (unless there’s a phrase with subscripted numbers that is NOT mentioned anywhere in the 文字版 dictionary explanations but actually exists as an entry in the print edition):

丁₂丁₂、上₂賓、上₂頭、中₂山、任₂子、作₃興、促₂促₂、倒₂戈、傳₂尸、先₂天、凍₂雨、勺₂藥、卓₂子、厭₂塞、厭₅厭₅、參₄伍、古₂老、吾₃子、呀₂呀₂、咽₅咽₅、唶₃唶₃、唶₄唶₄、啑₂血、喳₂喳₂、嘎₂嘎₂、嘲₂𠹗、嘽₄咺、囂₂囂₂、囂₂然、填₂填₂、壘₃石、壙₂埌、壹₂鬱、大₂王、大₃一、大₃師、大₃王、大₃皇、央₂央₂、嬛₂嬛₂、將₃將₃、尉₂頭、少₂廣、尚₂儀、差₄池、幢₃幢₃、平₂平₂、平₂章、從₅容、從₆從₆、忐₂忑、忳₂忳₂、忳₃忳₃、怫₂㥜、憲₂憲₂、扁₄舟、折₃折₃、抹₃布、招₃摇、振₂振₂、捷₂捷₂、提₃提₃、握₂手、攪₂搜、施₄政、施₄舍、昭₄昭₄、晻₃晻₃、朅₂來、格₃格₃、梵₂梵₂、榜₃子、樂₂成、正₂朔、每₂每₂、沈₅沈₅、沌₂沌₂、泜₃水、洋₃洋₃、洗₂馬、洸₂洸₂、浟₂浟₂、淠₃淠₃、淡₃淡₃、淫₃水、混₂混₂、淺₂淺₂、渢₂渢₂、渾₄渾₄、湝₂湝₂、溰₂溰₂、漎₂漎₂、漸₂漸₂、漸₃漸₃、潢₄潢₄、濡₂水、濡₃水、瀼₄瀼₄、灌₂灌₂、炎₃炎₃、番₄番₄、當₂日、疑₃滯、發₂發₂、皇₂皇₂、磷₂磷₂、累₂重、縱₂橫、纚₂纚₂、翁₂翁₂、職₂人、脱₃脱₃、若₂干、葭₂萌、蟫₂蟫₂、行₄行₄、規₂規₂、角₄角₄、解₃交、言₂言₂、賈₃逵₁、趣₂向、跁₂跒、躍₂躍₂、轉₂圜、迤₃迤₃、適₃人、遴₂柬、遺₂遺₂、酇₃縣、閬₂苑、陶₃陶₃、霅₄霅₄、青₂青₂、顛₂顛₂、骯₂髒、鳥₃庭、龐₂龐₂、㒔₂㑛

1 个赞

多谢!请问这些词条你是怎么得来的?应该远远不够。我前几天用ocr文字版比对出来300多条,现已手动补入100条。但因为识别率的问题,遗漏的还不少,应该还有100多条。想要完美,还是得人工把词典过一遍。

2 个赞

缺的词已经发给原提取人了,他空了会再提取,所以sxingbai 兄不用辛苦OCR了

2 个赞

那太好了,多谢!静候佳音了。

講這些技術的話題,我覺得用中文說不清楚。
詞條是怎麼來的…辭源數據裡的釋文 本身提到一堆多音詞,例如“參考‘某某詞’”;“見‘某某詞’”。我把這些又夾在引號裡、又帶subscript ₁₂₃₄₅₆₇₈₉的詞頭都抓出來(這是UltraEdit軟體的一個功能),然後跟數據裡夾在 “h3" tag 的詞頭 比對一下(用Excel的刪掉重複行的功能)。如果重複,說明數據已經有這些詞條了。最後剩下139詞。
當然,辭源印刷版的所有詞頭,只有一部分在釋文裡提到。我的詞表只包括這部分。

你說起碼缺300多條,真是嚇人啊。

好極了!請問,專名詞的 underline 樣式,原提取人有辦法抓嗎?大家很渴望這個,除了補上闕文以外。