【已上传】《汉语大词典》2.0 光盘版软件内提取数据

amob · 2024 年1 月 28 日 09:23

Wenlin_ABC_HDC.7z.001 (20 MB)
Wenlin_ABC_HDC.7z.002 (20 MB)
Wenlin_ABC_HDC.7z.003 (20 MB)
Wenlin_ABC_HDC.7z.004 (140.2 KB)

有没有谁会提取音序索引的文本数据？应该能拿来补全字词。

还有两千五自造字

大多数的计算机字集包括约6,500个汉字。其中3,800个汉字能够覆盖大部分读者日常阅读所遇到的汉字的99.9%。剩下的2,700个汉字在典型的计算机字集中已属罕见，它们在一般文本中出现的几率低于0.1%⑤。因此人们可以想象《汉语大词典》中的许多字是如何冷僻和少见。尽管这些字在总数达18,314页的双栏页码中可能只出现一至二次，但在索引的编制和排版中仍然必须顾及。即使是大型的商用计算机字集和特定的软件也很少有超过20,000个汉字的。因此我们必须制作2,500个左右的汉字，占全书所用的23,000个汉字的十分之一以上，并且要将它们安插到我们的排版系统中。这本身就包含着异常巨大的劳动。而且，由于逻辑和技术上的原因，造这些字只能放在工作的最后阶段，即排版阶段。实际上，由于要与排版程序相适应，每一批只能造300个汉字，这像梦魇似地困扰着我们。最后，我们采取了从原来的字库中删去2,500多字而代之以新造字的办法解决了这一难题⑥。这就意味着在最后排版之前，所有的编辑、分类、储存和校核等等工作使用暂时代替那些不常见的字的占位符号。描述这些符号的确切性质和结构是乏味而且不必要的，在这里只要指出它们是精巧而高度复杂的就足够了。

【已上传】《汉语大词典》2.0 光盘版 软件内提取数据

【已上传】《汉语大词典》2.0 光盘版软件内提取数据