新时代西汉大辞典

本人经过一个月的OCR把新时代西汉大辞典的文本整理成TXT文件了,单词分词工作也完成了,在群里把中间却也页部分找到后也补齐了,算是个完整版的TXT文件,文本大小接近17MB文件太大了,没有几十个,甚至更多个人进行文本校对去完成,需要几年时间,等完成了也就甩到一边了,没有意义了。希望年轻人们多做有意义的事
文本校对.rar (269.4 KB)

西汉.rar (5.9 MB)

2 个赞

这种500-1000万文字量的词典,个人对着原书校对之类是行不通的,需要用现今最先进的多个OCR引擎识别,然后软件对比互校,可以把错误率降到相当低,足敷日常使用。

当然工作量还是不小,一个人数个月或许就可以完成。

2 个赞

新时代西汉大词典.7z (7.4 MB)
之前万有知典上的数据

2 个赞

另可与此版本对校

您好,万有知典是个什么网站,以为您提供的链接里面有如下问题

  1. A 中间一段乱码
    acomodación 的<释义>【生理】视觉调节:</释义> 到
    ~se a las riendas 之下是单词aferravelas
  2. J完全是乱码
  3. Q完全是乱码
  4. U urgente 解决世界上的饥饿问题已刻不容缓。</例句>之后乱码
    问一下有没有能够找到没有乱码的源文件,多谢了,看里面的数据很好,值得好好整理一下,多谢多谢

现在正想利用自己ocr的数据来补齐缺失数据,因为格式不一样,自己正在准备着,不至于没有,但是校对压力也不小,也许完成也要一个多月了。

那个mdx是已经补过的了,你用mdict-utils解压后对比着改就行,不用做重复工作了。

您好,现在我下载不了MDX文件,能否把mdx文件发至我的邮箱么?多谢了。mucha grasias

或者把百度网盘链接更新一下,否则我得不到mdx文件及配置文件,多谢了

补档链接就在原帖后面,是可以下载的,有好几个版本,用附件传比较麻烦。这个里面有好几个版本,新的是加了其他索引和变位表的,你要对照应该对照之前的版本

新时代西汉
链接:

多谢了,电脑上不行,手机上保存了,多谢了

您编辑的新时代西汉dcd已下载使用,真是太感谢了,原来自己想制作,动了两次心思想制作成mdx格式词典,因为工作量实在太大每次都半途而废,这次得到了您的词典,感到人外有人天外有天,您的能力太强大了。
还是有个小的提议,更不能把词典改个格式,就是Hdict词典格式,这个词典在电脑上更好用些,顺便把词典使用软件和制作软件奉上,期待多多,因为这个词典是数据库方式来查询的,可以查到更多的内容
手机使用的app需要更新,只能在老手机上使用,现在的手机使用不了,看看大佬们能不能更新一下手机app
HDict.rar (328.4 KB)

先安装1,创建词典文件夹,再安装2,把字典文件复制到自己设置的词典文件夹,
apk.rar (1.5 MB)