MDX开源实现无法读取部份图片的问题

last_idol · 2020 年4 月 4 日 05:52

有一些资源文件里的某些的图片无法被读取，而其他所有图片均可正常读取。

这种情况会是啥原因造成的？

hua · 2020 年4 月 4 日 06:27

仅仅更改文件名就可以了？

last_idol · 2020 年4 月 4 日 06:30

是的，改名就可以了，怀疑和打包顺序有关，改名0003.png后，这个文件会第一个打包，d.png的话是最后一个打包。

endnote · 2020 年4 月 4 日 09:04

这个问题不是被nonwill大佬解决了吗？技术细节我不懂。可看他编译版本的更新日志。也是这个mdx

hua · 2020 年4 月 4 日 09:15

用 HEX 看下 PNG 的头部和尾部正常吗？

last_idol · 2020 年4 月 4 日 15:08

是有问题，用hex编辑器，手动改mdd解决了。我看看怎么代码里改。

last_idol · 2020 年4 月 4 日 15:09

没注意，一直用的2月2号版本。。。

last_idol · 2020 年4 月 5 日 04:51

github.com

goldendict/goldendict/blob/master/mdictparser.cc#L621


      
          }
          
          
bool MdictParser::readRecordBlock( MdictParser::HeadWordIndex & headWordIndex,
                                             MdictParser::RecordHandler & recordHandler )
          {
            // cache the index, the headWordIndex is already sorted
            size_t idx = 0;
          
          
  for ( HeadWordIndex::const_iterator i = headWordIndex.begin(); i != headWordIndex.end(); ++i )
            {
              if ( recordBlockInfos_[idx].endPos <= i->first )
                idx = RecordIndex::bsearch( recordBlockInfos_, i->first );
          
          
    if ( idx == ( size_t )( -1 ) )
                return false;
          
          
    RecordIndex const & recordIndex = recordBlockInfos_[idx];
              HeadWordIndex::const_iterator iNext = i + 1;
              qint64 recordSize;
              if ( iNext == headWordIndex.end() )
                recordSize = recordIndex.shadowEndPos - i->first;

不知道把这个endPos改成shadowEndPos是否可行？或者取两者中的最小值？大佬能指点下吗？

last_idol · 2020 年4 月 5 日 07:49

从代码角度看没问题，就怕MDXBuilder做了特殊处理，测试了阿弥陀佛的故訓匯纂11684个文件和古代汉语2660+文件，还有MW2020的45200+个发音文件和牛九3.1.3的114178个文件也全部正常，先这么用，有问题再改了。

endnote · 2020 年4 月 5 日 09:45

祝贺高手搞定bug！

mdx不透明的打包方式已经长时间不更新了，也许是时候考虑设计一种新的开源打包方式？

Word · 2020 年4 月 5 日 13:20

汉文博士是查疑难汉字的好工具，虽然用的不多，但我一直备着，多种检字方式查起来很方便

Word · 2020 年4 月 5 日 13:22

看了最近的帖子，讨论了不少东西，有些问题只能摸索着解决，众位高手辛苦了

endnote · 2020 年4 月 5 日 13:23

期待。

开放就能让大家都参与进来，共同完善。虽然各人贡献有大有小，但制作美化css、清洗数据这些累活没人去做的话，好词典也流行不起来。

比如论坛今年年初出现了不少新抓取的大部头mdx，数据内容不可谓不好。但是缺少人去进一步清洗美化增强，结果大家用的还是那些经典mdx。

hua · 2020 年4 月 5 日 13:30

先新开个 git 仓库，占坑。。。

hua · 2020 年4 月 11 日 11:27

为啥 XML 能最佳搜索体验

endnote · 2020 年4 月 11 日 11:41

步子太大了，会扯着。。。

last_idol · 2020 年4 月 11 日 12:11

比如例句，需要用统一的标签区分出中英文来，像mac自带的词典，我能直接用结巴分词对中文例句单独处理，用标准分词处理英文。mdx里的html标签很混乱，只能全文整个HTML用标准分词处理，再用结巴分词处理，例句反查这种效果没法实现。

last_idol · 2020 年4 月 11 日 12:12

简单搞就像GD那样用sqlite的全文索引。

endnote · 2020 年4 月 11 日 12:46

跟本论坛一样，新开源技术吸引用户应当放在第一位。
用户多了之后，再考虑下一步，没有用户一切无从谈起。

兼容迁就现有用户和技术路线是必要的。如果技术路线跟现有的生态大不一样，通俗说就是门槛高、麻烦，恐怕大多数现有用户还会继续留在mdx生态圈里。毕竟抓取牛津等网站网页清洗成mdx更方便，普通人文科生如我还能改改css。本来这就是个小众圈子没啥人。

当然，作为技术储备探讨xml等新东西也是必要的。

last_idol · 2020 年4 月 11 日 13:39

对改CSS没影响，最后页面显示还是用浏览器用HTML，只是存储在文件里需要结构化的数据，需要用XML。词典软件本身会支持MDX，对现有用户没影响。考虑数据转换的话，新格式用HTML肯定无缝能转，我出个工具就行，把MDX拖进去就能转出来，但转出来和原来的MDX在使用上没有区别。如果是XML，需要会PYTHON的词典作者的帮助，开始会很困难，但词典数量是有限的，慢慢转能转完现有词典。

例句反查是很强大的功能，不知道能不能吸引到词典作者们的支持。