delete_______

我觉得hua把用户或词典爱好者都想象成太傻瓜化了,他们有多种类型,建议不要混淆:

  1. 纯大白的终端用户:就希望当个伸手党(中性词),核心要解决的是——如何低门槛、快速找到下载资源;如何简易地安装到词典中并使用那些高手们炫耀的词典或技能。虽然这类用户有诸多的问题,但他们拥有最大优势——人多力量大,市场影响力大,真正的长期投票权在他们这里(喜欢使用哪个工具、喜欢混哪个社区、喜欢用钱或精力来投票),他们的喜好很重要,其他词典是否支持新词典格式或新规范要考虑他们的感受。

  2. 希望自定义词典的中级用户:这部分用户希望能够按照自己的心意定制一部分自己喜欢或需要的资源,虽然他们的技术水平或许一般,但他们爱学习、爱动脑、爱钻研。核心要解决的是——制作规范是什么,技巧是什么?你只要给出合适的教程,他们就会一步一步地去很好的学习和使用。这类用户就是小米所说的粉丝,是核心用户,虽然数量不多,但离开他们,要想低成本的推行新东西,那是及其困难的,我想无论本论坛还是pdawiki,很多中高级用户都是这样的。

  3. 拥有强大技术能力的高级用户:他们不受现有工具或规范的限制,可以自由地打造各种工具,他们有想法,能够制作超级精美的或资源稀缺的词典,他们受到社区的追捧,但其实大家也就是看看,有分享最好,没有也无所谓,因此时间一长,这部分高手过瘾了也就隐退了。这类高级用户要是能够组织起来发挥好了,那就是带领社区发展的精英,要是没发挥好,那也就是昙花一现。要吸引这类高级用户——首先,当然要给他们炫耀的空间,新格式或新规范必须足够好,并具有强大的可扩展性,这样才能吸引众多高手依照现有的规范源源不断地贡献他们的智慧,我们要做的是其实是打造一个平台,让这些智慧实现叠加式发展,形成可观的多样性,而不是就一个层次的问题重复发明轮子(成功的软件或平台大都有这样的特点,可惜成功案例大部分是国外的,比如apple store、android、chrome、vim等,国内的大部分就喜欢垄断、收割,大部分是少数人参与的、低水平的应用,难有高技术水平、大规模协作的案例;我觉得mdx在一定程度上实现了,只不过差优秀还很远);其次,若有更庞大的计划(技术角度等,有技术牛人领队,有值得参与的亮点),甚至有更好的发展前景(商业角度、职业发展等),那吸引力就更强了,这就需要有个好的计划和良好的组织。

我的理解,ubersoft当前更希望争取的是第2-3类用户,而hua更多是针对第1类用户。

1 个赞

用 sqlite 挺好的,还容易实现增删改,版本管理也就加张表的事,导入导出别的格式都很方便。

这真的是 mdx 能普及的关键原因,要不然没多少人能贡献词典。

有版权问题的数据很难利用公共的 git 托管服务,到时还有自建平台的问题。

1 个赞

想想比例,想想作品产出比例。

拥有强大技术能力的高级用户,我见过的,一只手就能数,你指望他们是词典制作的主力军?我强调简单,仅仅是因为制作词典的主力军是最普通的用户,而不是会编程,会爬虫(python perl js等,非下载器)的用户。

另外提一嘴,XDXF 也是一个类似的词典格式。Sqlite 的压缩率我试一下再更新。

我觉得主力是第2类希望自定义词典的中级用户,通常会HTML、CSS、正则,而且他们通常愿意接受更规范更强大更…的标准,只要:有深入浅出的教程(合适的教程是必需品)、目标又有吸引力(更好的词典或更好的体验等)。

谢谢详细回复,我也是开发者。所以指的主要是计算机处理效率。json虽然开放,但还是太复杂,parse几M的单一内容字符串效率损失太大。我自己用的字典格式是纯文本,仅用"####"标记词头,使用很方便,所有的工具都可使用,无需开发。譬如grep, ag, rg, less, xzgrep, xzless, zstdgrep, zstdless, vim, vis, 不同检索工具,正则等。
附上我的这些字典及使用方法以作参考:
http://jamesfengcao.gitee.io/uweb/tools/

1 个赞

如果有更好的工具,门槛下降,不同用户群确实有可能会发生转化,就好像抖音直播。不过,降低技术门槛可能只是必要条件,而非充分条件,可能还包括强烈的兴趣、乐趣,甚至金钱驱动等因素。

现有的词典社区其实还非常小众,没多少人,如果技术上能够突破,实现跨圈发展,比如如何与anki更好的协作,又比如切入中小学家长群、大学生、教师等(他们对词典其实有强烈需求,不过目前是隐性,很多人根本不知道这个世界还有这么多词典),又比如使用现有的技术拓展到非词典类的使用场景(想想都是资料的检索,完全不必局限于正儿八经的词典啊,或许这就突破了所谓版权的魔咒),那又会是另一番完全不同的景象。

回过头看,如果依然只是现有这些人在折腾,估计大概率会人的惰性战胜新事物:因为现有的mdx再怎么差,也有60分,如果我们仅仅是从60分提升到70分,很多人是不愿意投入精力参与的,甚至连试一下都不愿意。技术如何支持跨圈发展,也许是个重要的课题。

3 个赞

问题是绝大多数人都是第一类。
一个月前我用正则很费劲。但是上手之后,从结构简单的网页制作成小型mdx,并没有那么难,而且正则会越用越熟练(自己跟自己比)。但如果在这点极为有限的html+css+正则知识之外,还需要json,可能进步会更难点了。
mdx也许还会是一种并行方案,因为其容错性兼容性对第一类更为友好。如何搭建台阶,让第一类更轻松一步步地转为第二类,也许这不是本贴要解决的问题。

大家都很支持一种开源开放、规范明确的新格式。但不时泼一泼冷水,既是对楼主的善意提醒,也是对其热情和后续可能付出时间精力的一种尊重。

不管未来结果怎样,通过参与这个帖子的讨论,我自己对开源生态构建的认识体会又进步了一点。希望大家都有所收获。

你都会正则了,已经算是第二类用户了。当然第二类用户还有很多级别,有骨灰级的,有新入门的。

第一类用户通常仅仅是词典的终端消费者,一开始只会关心下载、下载、下载,用现成的,根本不关心什么容错性、兼容性,因为这些是词典制作者或者词典程序开发者关心的问题。随着他/她对词典的认识或需求的加深,或许就会向第二类用户转换。若他们是真的小白,其实学html和学json没有任何区别,都是新东西,而且json其实比html、css、正则简单多了。

1 个赞

复刻 mdx 是最简单的方式,只要规范 stripkey 的实现方式+ 解决跳转容易死循环的问题就够用了。至于存的是 json,xml 或 html,由作者自己决定好了,渲染模板的问题,可以参考 mdx 里 compat-html 的实现方式。

提取json,如果会 python,或者感兴趣,不如直接用 beautifulsoup提取。
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

小白请教(不知道以下问题问的对不对):关于 JSON,可否仅仅是存储格式的中间媒介(或者说是标准格式),用户最原始的词典格式可以有多种多样,但我们提供将这些格式转换为JSON的机制(用户可以自由添加新的转换程序)。

我在 MdxSourceBuilder 中做了如下构想,不知是否与大家讨论的是一回事?若根本就是两回事,也请解疑。

1 个赞

bs可以把JSON转为html吗?

1 个赞

不行,bs 只负责提取,json 转成 html, 需要 jinja2之类的模板渲染引擎。

好的,有时间研究下

老兄,可否在mdict先搞个类似lingoes的一个查詞的浮动视窗,且可以掛想掛的詞典,也就是在目前的架構上補強,這樣是否可以容易點,辭典的格式可以從長計議這樣也可把mdict上的辭典更大化的利用起來
或者,弄一個類似mdict tools 的那樣工具,把它定義好,則後續的一些辭典可按那工具來生成,如此先規則化到一定的程度,則轉化成新的格式則是水到渠成,事半功倍

浮动小窗查词的关键是取词,lingoes 的取词是买的商业版屏幕取词库 getword,欧路是买的 wordcapturex,自己实现很困难,只有youdao是自己实现的,goldendict 的实现不算屏幕取词,是监听的复制粘贴, ctrl+c+c,这种方式会简单些。

是喔!,哈!哈哈哈!這個取詞這麼難搞呀!唉!不然固定的區域也可以,哈!哈!

小白支持大神!设想非常好,目前还没想到其它需要求,只是希望能实现一个词条能多个关键词搜索,比如“优秀|优异”。

大神误会了,我说的不是模糊搜索。现在mdx每个词条不是只能设一个关键词嘛,我希望的是能设多个关键词,我上面举的例子是同义词辨析,再比如繁简体,或者英语的形态变化等等,不需要再用@@@LINK=跳转,俄国的那个软件叫啥,好像是灵格斯就能实现。

Babylon 和Lingoes 對於此的格式似乎處理的比較好,也簡單點