《汉语大词典》注音校对

Fince · 2021 年9 月 1 日 10:26

我可以考虑空闲时间帮忙校对

sxingbai · 2021 年9 月 1 日 10:32

多谢，我也建个微信群吧，便于协作。
刚才我试着校对了几个，发现由于ocr的原因导致任务量增加不少，我再考虑看是否可以和我前面的筛选再结合一下，也许会减少不少任务。

Fince · 2021 年9 月 1 日 10:38

我之前OCR扫规范词典的时候，为了方便写声调，在搜狗输入法的“自定义短语”功能上给aeiou绑定了四个声调，打出来直接选 OCR识别准不准还挺玄学的，同一张图，识别三遍可能有一遍能识别出声调，另外两遍不行

sxingbai · 2021 年9 月 1 日 10:43

因为图片上声调本来就不清楚，所以我的方案是比较词条顺序，只要两个表单中词条顺序不一致就认为这个词不可靠，需要校准

sxingbai · 2021 年9 月 1 日 23:42

对筛选出的9000词条再筛除首字外不是多音字的，只剩3000多条了（前面功夫没白费）。
但校正读音真不是一件容易事：
就上面那个“阿闍”，先查“闍”，《汉语大词典》有两个读音

再查文字版“阿闍”

再查文字版“阿闍黎”

再查图像版“阿闍黎”

图像版对“闍”的注音是she1，放在整个词条偏后的位置，不合常规，并且与对单字的注音（du1与she2）不合。
到底如何选择。查《词目意序索引》

依稀可见是she2。再与《汉语大字典》《辞源》等对照，确实读she2。
过程虽艰辛，但也挺有意思的。
以后遇到特殊的情况都在这里备上：
挨挨軋軋
緝直接注音ji1 qi1 应为（今读qi1）缝衣边
愛手反裘愛毛反裘

sxingbai · 2021 年9 月 2 日 03:17

有兴趣的朋友请加群

sxingbai · 2021 年9 月 11 日 03:56

查“畚梮”，解释同“畚挶”。但“挶”注音ju1，“梮”却注为ju2。因为怀疑，所以又查了几部辞书，却反而更糊涂了。梮，《汉语大字典》《辞源》《现代汉语词典》都注为ju1，《辞海》却注为ju2，和《汉语大词典》一致。看《廣韻》两个字都是居玉切，入燭，見。这种分歧可能与入声字有关。本着少数服从的原则，就暂定为ju1吧。

Mastameta · 2021 年9 月 11 日 10:45

普通話聲調是陽平，聲母是b, d, g, j, zh, z，都原來是入聲。這個原則，我給自己造了個助記句子：“博得格局，輒足”。

關於“梮、挶”，若是逼我選ju1或ju2，我會按照聲符“局”，歸陽平。

我的辭源拼音索引把入聲字都標出來（“-k, -p, -t”韻尾）：

去掉“挶、梮”兩例，有這樣分配：
ju1：鋦
ju2：局侷跼駶

其實“鋦”也是多音字，又j讀ju2。

一般來說，入聲派於陰平是少數，陽平更常見。我曾經做過統計哈哈：辭源收的入聲字，只有13% 現在派於陰平。（相對於32% 陽平；4% 上聲；52% 去聲）

sxingbai · 2021 年9 月 11 日 10:54

高人，佩服，真渊博呀！不过根据声部类推读音，或根据同声部的字去类推，还不够严谨。一个字读什么音恐怕还是取决它在生活中怎么读，历代辞书怎么注。

Mastameta · 2021 年9 月 11 日 10:57

嗯，廣泛趨向不能決定某個案子的具體答案。我只提出廣泛的 pattern 來參考。

shaoshi · 2023 年1 月 26 日 13:12

我现在也在改《汉语大词典》的自动注音。

还好用Emeditor上手了，能够批量替换。

Emeditor实现快速词典校对操作

1.find extract “chánɡ”, save as data.txt.

2.find extract “場” in data.txt

3.建立一个emeditor.xls

格式：

on dat1 dat2 R

4.复制用 "場"抽出来的资料，贴到dat1栏。

5.更改emeditor中用 "場"抽出来的资料，复制后贴到dat2栏。

6.用on填满第一栏，用R填满第四栏。

7.将Excel文档save as unicode txt，文件名：emeditor.tsv

8.在Emeditor中，Search — Replace in files — 右下角 Import
导入tsv文件。

9.在左边In folder选择文件夹。File types选择*.txt。
(在该文件夹中放进所需处理的文本。注意不会选择“look in subfolder”，以免误伤子文件夹中的文件。最好新开一个temp文件夹处理这种需要批量替换的文件。)
(多文件，选择Save Backup，只有一个文件，选择Keep Modified files open。)

10.点按右上角的Batch Replace All。

The faster method

第6步骤以后，不必转存为text。

接入下面的步骤：

1.选择Excel中所有数据，复制。

2.在Emeditor中，Search — Replace in files，假如替换表中有数据，先选择一切数据，删除。

3.直接把Excel中的数据，通过剪贴板粘贴到Emeditor的复制表中，直接就能用了。

本来以为第一字的自动注音不会错，只有后面的多音字可能错。

刚刚发现：“器”的注音全错了，应该是去声，变成阴平，不知怎么搞的。

再如这个注音：

一十八般兵器yīshíbāpánbīnɡqì

把“般”注成pán，真是离奇、离谱的错误啊！可以用“灾难性”来形容！

jcz777 · 2023 年1 月 26 日 13:27

你没有用过emeditor的CSV模式?
你要是用了这个，就不用跑去开excel。

shaoshi · 2023 年1 月 26 日 13:29

没弄懂这个csvmode，Excel我熟练，混合操作对我还是比较方便。

我知道你是Emeditor专家，但是贵人语少，只贴个图，没法领悟啊。

jcz777 · 2023 年1 月 26 日 13:44

这CSV模式说透了就是一个简单化了的表格，功能也比较简单，但挺好用的。
比如列操作：增加/删除整列、复制/粘贴列

试着用一下，就知道。除了没有函数功能外，可以当成表格用。

naisme · 2023 年1 月 28 日 09:29

简单实用的函数功能有 https://www.emeditor.org/en/howto_search_replacement_expression_syntax.html

midzuki_yuka · 2023 年1 月 28 日 12:33

这个群还在吗？在的话求个二维码。

sxingbai · 2023 年1 月 29 日 03:55

不好意思，校对已半途而废

shiruxue · 2023 年1 月 30 日 17:59

1997年，汉语大词典出版社和香港商务印书馆联合推出了《汉语大词典》光盘版1.0，2003年又升级到2.0。
http://www.guoxue.com/?p=4453

《汉语大词典》（第一版）于1994年出齐，第二版的编纂工作于2012年正式启动。《汉语大词典》（第二版）第一册征求意见本于2018年底面世。预计2023年完成《汉语大词典》（第二版）25册征求意见本，此后由上海辞书出版社正式出齐。