簡繁轉換詞庫分享8.29

Rime古典中文詞庫 - 资源分享 - FreeMdict Forum之後,我有了搞簡繁轉換詞庫的打算。前幾天裝了opencc,于是能在本地加載詞庫,這時各類大詞典詞頭又派上了用場。我設計了两个詞庫,一个用於處理古代文本,一个則處理現代文本。前者没有用opencc原詞庫。後者有用(後文會說)。
古代詞彙底本我選取的是「漢語大詞典(含2.0、3.0、訂補、書證)、辭源、佩文韻府、大漢和詞典、植物古漢名、道教大辭典」(上皆繁體詞條)。處理方法爲用正則找到所有含簡繁轉換的詞,人工對比「一簡對多繁皆成詞」者一萬餘條,優先辭源、漢大。最後則選取國語辭典中與之不衝突、且不須額外處理的詞條加入。
現代詞彙則麤略地多,以原稿爲底,選取國語辭典的資料一骨腦ㄦ加入、去重,再加入古代詞彙不衝突者。這下語料便相當豐富了。(8.8更新,去除古典詞彙,僅保留原版詞庫、國語辭典、臺版辭海的詞頭。)
按:對古代詞彙的文檔,我用心較多,依个人喜好,選了不少自己偏好的用字,統一了字形。現代詞彙字形則未統一字形。
以上爲最初發帖時所寫與如今的詞庫有出入。
9.14
KDPhrases.txt (2.9 MB)古(訂正字形,標準兼採臺、陸及少數異體字。加入同形字詞彙處理)9.14日古文詞彙有更新,餘無
STPhrases.txt (1.7 MB)今(改爲opencc標準)
kiwqtshoh.txt (2.4 KB)糾錯
STCharacters.txt (33.5 KB)今,單字(包含一對一,一對多,opencc標準優化,字序有調整)
SKCharacters.txt (33.6 KB)古,同上。
不要用舊版。本人不承擔任何錯誤造成的責任。如不放心,請用原版opencc或繁化姬。

7 个赞

感恩分享,Rime的资源

你在另个帖子問rime如何切輸入法,正好這个帖子我要更新,就在這邊回復吧。我用的是Mac,control鍵加「~」鍵可以切換。windows可能不同,具體可在rime官方說明上看看。

詞庫之前統一字形時,用了部分日文新字體轉爲opencc字形檔的資料(因爲新字體有很多和新字形重複),結果後來發現opencc提供的轉換檔中「余」轉爲「餘」「御」轉爲「禦」。把我氣得夠嗆,不過現在改了。我的用字是Koqvariants,主要參攷的是學生字典的用字。
又,wiki上有个 Subject:華製新漢語及中文固有語 - 維基學院,自由的研習社群 (wikiversity.org) 很有趣。裏邊許多舊譯,可視同地方用詞,加入轉換。

你可以做个字形表(我已提供自己的字形標準,主要依據爲學生字典,我發過相關鏈接,自己翻)轉成opencc、香港、臺灣、大陸的繁體標準,我没意見。opencc也不合三地任何標準,你怎么不去投訴呢。我不是寫論文,用不着去帖合各地標準,自己舒坦就行。
不滿意自己去做詞庫,我又没營利。提意見麻煩提點有意義。
大陸人士(大概還是个業餘人士),跟个衛道士似地扞衛「臺標」「港標」,很可笑。你不妨將我視作日本人、韓國人,這樣接受異見便好多了吧?我不會回復這樣的問題了。另外「裏」是陸標。辭源考攷區分。个是自古有的俗字,不是什么簡化字。

应为「台標」。
然后,转换的问题其实应主依《现代汉语词典》《新华字典》《王力古汉语字典》特别是《 通用规范汉字表》。

外行還是少說話吧。動手查下。臺寫成台多數情況下是俗寫,公文全用臺

平时用什么其实都可以,台標用的明显多(電視台台標),难道你想说是臺灣標準?
主要台湾也没见大多数人很守标准。(电视台不还是用台灣)
现在电视台主持人说话有刘文正正的有几个?(哦不好意思,可能你还不知道刘文正,估计还要上wiki一下)
然后回来说簡繁轉換:
汉字方面,臺灣標準可没有《通用规范汉字表》标准吧?

國字標準字體 - 維基百科,自由的百科全書 (wikipedia.org)
動手查下吧。臺標是很常見對國字標準字體的稱謂。

這透露出您大概不瞭解漢字標準是怎么回事。您看下國字標準吧。通規是个簡化字方案說明,目的不在於製定「傳承字」標準。
陸標現在以《古籍印刷通用字規範字形表》爲準。帖个鏈接。
GitHub - forFudan/GujiCC: OpenCC 繁簡轉換之大陸古籍標準 -《古籍印刷通用字規範字形表》

《古籍印刷通用字规范字形表》(GB/Z 40637-2021)是中华人民共和国国家市场监督管理总局、中国国家标准化管理委员会发布的国家标准,在其标准分类中,属于指导性标准,不具有强制性。该标准是作为古籍数字化和繁体版现代书刊出版印刷的依循规范,由中华人民共和国教育部和国家语言文字工作委员会委托北京师范大学文学院、商务印书馆和中华书局共同研制。
如果你说古籍我认可,虽然这不是强制性标准
我这里讲的是现代用字,然后,你这帖子是繁简转换,当然应用通用规范汉字表

1 个赞

speak for yourself, youniworty

其实我只有一个问题,台湾哪个写法是正的,还有古文文字规范,不是关键点。
真正是问你你有依据《现代汉语词典》《新华字典》《王力古汉语字典》特别是《通用规范汉字表》来制作繁简转换词库,n’est-ce pas?
(毕竟你的这个帖子主题是这个,你有没有采用这些,是可靠性的关键,总不能说你比国家级别的专家还懂繁简转换吧)

陸標、臺標、港標也不具強制性,要求我幹嘛。而且,我可以保證說,我的標準只在一些字的選擇上和臺標不同。互通可不成問題。通規裏的一簡對多繁當然都照顧到了。要想調成上述幾个標準輕而易舉,但我没有義務。

以及

这恰好与楼上说的

相背了。

你打開koqvariants(我个人的標準)看看嘛,多數是把異體轉改了。而skcharacters和stcharacters,就是一簡轉多繁及一繁的文件,你找找其中的一簡多繁和通規有什么不一樣么。我的標準只是在通規基礎上調幾个字。外行少說話,不丟人。談自己不懂的不承認纔可笑。

1 个赞

那我说一个:日本汉字应与其他分开,毕竟大杂烩能分开最好

我恰恰是把日本漢字轉成中國漢字的。休帖