殆知阁 和四库全书是目前第一大和第二大的古文语料库。
你提到用古文的数据库增添输入法词库的文学色彩,这样的美梦我也曾经做过。3.0版本之前就包含殆知阁的文本数据,包括道藏 易藏 医藏 佛藏 子藏 史藏等等。
采用古文数据库后,生僻词大量增加。这些是现代文中几乎用不到的。
古文数据库,不少文章没有标点,原来分析词语的长度是2~4个字的词语,现在词语长度升级到2~16个字的词语,古文数据库中没有标点的文章分析,会增加长度相对较长的废词的数量,分析复杂度和时间也会增加。
EPUBEE全站电子书,百度百科里有不少目前仍然比较流行的古文数据。
另外,文章没有提到的高权词库,包括
唐诗三百首、宋词三百首、老子道德经、论语、诗经的整句
李白诗句全集
这些输入法里都有。李白的诗句可以随便测试一下。
本来我想收录全唐诗的,一分析发现,这个数据库太大,因为Windows轻量版最多只能使用约260多万的词汇,一个全唐诗就50万+的数据,其他的词汇如何保证足够的数量。
经典的古文作品其实只是少数,大部分古文的质量并不高。
希望是美好的,现实却不一定和希望的那样美好。