我手上有5本日语词典的完整数据库文件,望高手转成欧路词典支持的格式

手上的是5本日语词典的数据库文件,我试着用python转换,但效果不理想,望论坛高手指点,或帮忙转换一下,再分享给大家,愿为论坛出一份力,感谢大家的付出和分享。
感谢hua、 last_idol、 mdict6、 增上慢、 winn几位大神的付出,现已有一本词典成形,见25楼winn大神的分享。
论坛真是高手入云。

8 个赞

不介意的话可以直接分享出来。

分流:

3 个赞

楼主发的这个数据很好嘛,都没有加密的,数据库结构也清晰。还是说楼主遇到了一些其他问题?

我已经分流了,应该有人会转换吧?


1 个赞

辛苦大神了,我转出来的好多对不上,词条和语音,跟着chatgpt操作的,还是希望大神们帮忙搞个美观完整正确的版本,再分享到论坛,在论坛下载了很多有用的词典,辛苦了!

HTML 模板 + CSS 样式表 + PNG 图标:

html+css+icon.zip (273.8 KB)

2 个赞

索引的结构设计也很好。(对日文搜索不了解的很值得参考

谢谢大神的分享!

这五部词典真是让人垂涎欲滴。日语叫做“喉から手が出る。”期待大佬出手做成mdx词典,为坛友带来福利。期待!!!!

没有直接打包,词头需要清洗和二次提取,链接需要批量替换,都需要熟悉日语词典制作的作者来处理,链接现在只能保持 7 天。

密码: free

1 个赞

大神辛苦了!谢谢!

这个盘下载速度可以

把last-idol哥哥提供的解压后,得到五本词典。
试着打开一本词典可看得到两个文件,如下图。

  1. 用em-editor打开txt文件,替换关键词</html>\r\n<\>后保存。
  2. 用everything.exe批量修改文件格式。
    image
  3. 用上面的txt和文件夹生成mdx和mdd

剩下的问题

是需要词典重度用户解决如下问题。

  1. 日语词典肯定需要词头扩充,不扩充就不好用。
  2. 目前的txt里词头位置包含有加粗、倾斜、图片、不可见的私有字符等,需要处理
  3. 制作mdd对应的文件夹内,附件有3种格式,批量修改很快。
    .media.1 是jpg
    .media.2 是png
    .media.4 是svg

制作完成后还需要坛友们测试捉虫。

英和那本词头比较好清理,但像这种链接:
<a class=“ref” href=“lved.dataid:309100000#309100000_0470
加粗的部分该如何匹配对应的entry?只用正则办不到吗?

<a class="ref" href="lved.dataid:309100000#309100000_0520" data-type="成句">not merely <span class="i">A</span> but

感觉这种链接不太规则,不太好匹配,我是想直接把加粗的部分匹配到</>下的entry(entry需要全文匹配, 我弄不了, 像上面这个<a>所在词条(entry)为merely, 但我需要全文匹配到</>\nnot),看来是不太好弄

像lved.dataid:这种,可以直接改成entry://

gofile.io 打不开,可以帮转度盘吗?有空试试。

你要接手制作吗?是的话我可以转存一下。

我先看看是否有能力制作,如果只涉及正则表达式和简单的程序,是可以制作的(太复杂的、需要耗费大量时间除外)。

你看上面的回帖呢,需要热情去处理词头、词头扩容、以及锚点跳转