关于Mazii日语学习APP(词典)的讨论

貌似在中文圈很少看到有人讨论这个应用(Mazii),是个越南人开发的,服务器架设在新加坡?
以前关注过一段时间,里面的日文短篇抓取自日本新闻网站,只提供最近三个月内的数据,没有心力每三个月一次跟踪积累初级日语短篇内容,有余力的网友或许可以积累些语料素材?日本新闻网站也只是提供最近30天的内容阅览而已。
Mazii的部分日语词汇单字分级或许不严谨,但是日文汉字词假名标注实现方式做得非常出色,估计超越了Mojidict团队?
这个应用并非面向中文圈,更多的是在越南,泰国,东南亚等市场,也见到过国内开发团队汉化(仿造)Mazii的计划,但是最终归处却去向不明。
希望在这里可以了解到更多有关这个APP的讨论。

建议说明下是哪个新闻网站,给出具体网址,或者介绍下可替代的网站。这样有人看到或许有兴趣爬取制作 mdx。

这种标注很简单的,难在学习日语的人不多,需要的人少。MOJi 做不了可能有别的原因。

初级日语新闻来源网站当时是在模拟器上安装APP抓包来取得站名的,有五六个日文网站,现在还记得的有easyjapanese,nhk初级新闻这两个,Mazii APP架设在新加坡的服务器并没有限制爬虫批量抓取json数据,挺容易取得数据的,比起直接去日文网站抓数据要省事,Mojidict团队不做这块内容估计是怕有版权风险。
讲真,Mazii应用上的汉字假名标注命中率极高,词汇分级这块或许存在一些争议,不知道是否引入了人工复核的缘故,每三个月数万篇的短文假名标注也不太可能引入人工复核,或许是词汇过于简单的缘故。如果是有闭源方案采用了机器学习语言模型的话,会更加引人注目。
不觉得日文汉字词标注假名是个简单的功能实现,感觉机器批量标注出错率会有点高,对于短文阅读(300字左右)看到一处词汇标注错误的假名就很影响阅读体验了。

确实自己标注提高准确率是很困难的事,但如果我是开发者,要是开源方案满足不了我,我不会自己做的,我会直接找微软谷歌的接口,如果还不满意,就找日本国内的接口,雅虎的开发者接口应该就可以了。

easyjapanese 就是Mazii运营的,直接爬这个就可以了。