日汉经贸机电词典 未完成数据

大概在十几年前加过一个群,分工对一本日汉词典进行校对整理。然而最后项目没有成功,凭印象应该是完成了99%就剩最后的整理了。因为时间太久,我现在手头就只找到最后的一个文件,文件名就叫
日汉经贸机电词典 +自己词汇.txt
看名字就知道是经贸机电方面的专业词典,词条数大概是15万。这类专业词典主要用途是找一个术语较为靠谱的中文译法。大家都知道日汉的专业词典的电子版极少,这本还是有用的。
但是吊诡的是我最近Google了一下根本没搜到叫这个名字的日汉词典。。
我有点猜测是日汉经贸词典和日汉机电工程词典的合体,但是跟我手头的日汉机电工程词典比了一下似乎又不是。。
时间太久,我已经完全不记得具体情况如何了。。
我一直想将其最终整理完,然而困于能力和时间不足,一直没能完成。

日汉经贸机电词典 +自己词汇.7z (2.2 MB)
现在放上来,看看有没有大神愿意接手。至少也能用文本搜索凑合用吧(我现在就是)
对了,当时群里应该是不公开分享的,如果当时的群友认为有问题请告诉我,我来删除

数据可能需要进行脚本和人工处理,具体的问题有以下一些:

  1. 列有错位
  2. 部分日语间隔号显示成?
  3. 有一些标点符号需要处理,大致上是多余的引号,以及半角逗号
  4. 词头需要处理。这本词典大概是为了方便中文查询,形式是比较奇怪的。第一列是假名,第二列是汉字/英文/假名混杂,第三列是释义。例如
    あっしゅくちっそコンデンサ 圧縮窒素condenser 压缩氮气电容器
    我手头的日汉机电工程词典就是这种格式,意外地还挺好用的。但是做成mdx的话,不适合检索,需要重新做个词头圧縮窒素コンデンサ。当然这些列本身可以保留,片假名提供一个英文还蛮适合我们的。
8 个赞

这样的词头好像有好多,感觉用正则处理起来会很麻烦,汉字在前在后在中间的情况,还有固有词的情况等等

嗯,主要就卡在这里,处理起来还挺麻烦的。