抖音汉语(HDC汉语大字典 + 90K 新词条 = 40万词条)08/13 离线图像百度-离线发声在路上

抖音汉语说白了就是杂拌式的汉语资源,什么都是别人的,本着拿来主义拉杂成堆,没有突破没有创新,就这差不多也瞧出抖音对公益人文这一版块的重视程度了。建议还是以光盘版为主,渐次用抖音汉语的部分句例来嵌补光盘版缺失的句例吧,这要是做好了,几几乎就接近纸本书了。聚典也不是完品,估计也是众包数字化的成果,虽然也是OCR文本去比勘,但后期基本没有缮补了,各处小疵瑕也不少

如果这样的话,我尽量把抖音汉语网站弄完整也行。

我以为HDC就是光盘版,光盘版是不是2.0更好/完整? 我的假设是目前光盘版的词头都已经在HDC(json版)里面了。目前的主要问题是HDC词头以外,还有更多词头还没确定完整。抖音的词头都躲在DocId后面,所以增加了麻烦。这次我额外发现将近9万新DocId。

反馈一下,我在goldenmdict-ng版打开,页面是这个样子。主要集中在字体这里。

呼应一下,我的软件是GoldenDict-1.5.0_(QT_5123)(64bit)。因放大倍数的不同,显示也略有不同。

那可能是我词典装的太多了,css之类的打架了。

不好意思,新的版本已经把笔画放下面了,现在这个版本挤在header里面。

那是我下早了?我看了下,确实文件不一样了,我再换试试。

@manwang @茕鬼爱折腾 上传了新版本,带了部分发音(不全)和小结构调整

你们比较一下,先都保留,等完成了再换成新版。

没挤在一起的问题了。换了新的显示没问题了

1 个赞

另外,红色词头是汉大:link:,蓝色是未标明书名:link:

你好,我已经下载了那个1G多的.mdd的文件了,为什么还是不显示图片呀,用的DictTango和GoldenDict测试的

有度盘吗?mdd不好下载

那个是小部分语音,图像还在奔波

我电脑indisposed,等一下上传到百度

搞定了吗,期待中哈。

辛苦啦 :handshake:辛苦啦

字形演变甲骨文放在中间了。这是原来的顺序?按理说,甲骨文应该在演变的早期。

感觉笔顺的动画太快了。速度不可调吧?

字形演变按理应该时间顺序,但是json数据好像无序。

好在历代字形是按发展顺序的。HDC的json缺乏这个,我手动按朝代和字体排序了,仅限于HDC

所以实际上可以不用字形演变,只保留历代字形。

没研究过这个,可能是可以的。目前不知道。

进度比较慢,因为还有其他事情要忙乎。

  1. 更新了离线图像
  2. 删除了无序的glyph_evolution, 保留了GlyphItemList,它是历史排序
  3. 加了型近词
  4. 所有跳转都替换了
  5. 稍微紧凑点
  6. 相关词组去重
1 个赞