Wenlin_ABC_HDC.7z.001 (20 MB)
Wenlin_ABC_HDC.7z.002 (20 MB)
Wenlin_ABC_HDC.7z.003 (20 MB)
Wenlin_ABC_HDC.7z.004 (140.2 KB)
有没有谁会提取音序索引的文本数据?应该能拿来补全字词。
还有两千五自造字
大多数的计算机字集包括约6,500个汉字。其中3,800个汉字能够覆盖大部分读者日常阅读所遇到的汉字的99.9%。剩下的2,700个汉字在典型的计算机字集中已属罕见,它们在一般文本中出现的几率低于0.1%⑤。因此人们可以想象《汉语大词典》中的许多字是如何冷僻和少见。尽管这些字在总数达18,314页的双栏页码中可能只出现一至二次,但在索引的编制和排版中仍然必须顾及。即使是大型的商用计算机字集和特定的软件也很少有超过20,000个汉字的。因此我们必须制作2,500个左右的汉字,占全书所用的23,000个汉字的十分之一以上,并且要将它们安插到我们的排版系统中。这本身就包含着异常巨大的劳动。而且,由于逻辑和技术上的原因,造这些字只能放在工作的最后阶段,即排版阶段。实际上,由于要与排版程序相适应,每一批只能造300个汉字,这像梦魇似地困扰着我们。最后,我们采取了从原来的字库中删去2,500多字而代之以新造字的办法解决了这一难题⑥。这就意味着在最后排版之前,所有的编辑、分类、储存和校核等等工作使用暂时代替那些不常见的字的占位符号。描述这些符号的确切性质和结构是乏味而且不必要的,在这里只要指出它们是精巧而高度复杂的就足够了。