[生花笔]1.94.6安装教程(ocr,对话,智能搜索,文本纠错)

书接上文

1.94.6

  • 支持知识库的导出与导入
  • 支持对话多厂商配置
  • 支持脑图中卡片的markdown导入与导出

1.94.4

  • 参考LightRag实现知识图谱提取与对话
  • 支持知识图谱在文章中的提示与补全
  • 逐句对话改为逐行对话(即每个回车调用一次,逻辑更加清晰)

1.93.5

工作流

  • 文本节点组生成
  • 帮助

脑图

  • 主题支持
  • 卡片/文本节点转换优化

卡片

  • 代码块
  • 卡片显示模式
  • 文本节点改显示模式

编辑器

  • 高亮支持主题

1.93.4

  • 视频介绍
  • 增加了样式模板,可以自定义模板,生成节点会自带模板样式
  • 支持文本节点组合卡片的双向转换
  • 卡片内支持节点链接跳转

1.93.2

脑图

  • 优化脑图加载,部分操作改至右键及配置中

  • 增加节点查找功能,方便定位节点

  • 增加连接点大小方便点击

  • 性能优化及bug修复

下载安装

  • 优化下载线路

  • 增加下载失败自动重试(10次)

模型相关下载不在此列

编辑器

  • 选中搜索增加模糊查询

其他

  • 帮助/字典相关页面增加查询

1.92.13

  • 视频介绍
  • 支持图片对话
  • 悬停查询显示支持外部样式(前提手动放到资源中)

1.92.12更新

  • 视频介绍
  • 卡片/文本节点批量导入.卡片支持图片导入
  • 编辑器内选中查询字典(精确查询)
  • 卡片在编辑器中的显示与在脑图中一致

1.92.11更新

  • 视频介绍
  • 字典图片检索/显示/链接跳转/搜索顺序
  • 卡片批量导入
  • 脑图双向边
  • 相关bug修改(理论上不会崩溃了)

1.92.9更新

  • 显卡加速导入
  • 重写了显卡加速部分.请使用dml+fp16设置进行导入
  • 测试成语字典1.3w条 64秒(7900xt), 354秒(780m)
  • 关于反馈导入时可能发生异常的问题已经修复,如有问题请反馈
  • 关于反馈下载模型很慢的问题视频中有说明,您也可以在下载地址中的阿里云盘中直接下载压缩包,然后解压到指定位置

1.92.8更新

  • 暂时不要下载此版本

导入字典速度过慢…准备重新修改.您可以去阿里云盘中找1.92.7

  1. 字典导入改为webgpu(显卡)

测试成语字典1.3w条 110秒(7900xt占用60%), 600秒(780m 满载)
感觉就是高端显卡.明显有加速,低端的话可能还会减速.实在不行就是下回加上cpu一起跑

  1. 升级不用清除语言包缓存,已经找到并且修复
  2. 不会莫名其妙多出一些空文件,已经修复
  3. 卡片生成修复
  4. 升级更新下载修复
  5. 因为这周有事所以就先发了,不着急的话可以等我回来后出完视频再更新.正考虑是不是cpu+gpu一起跑,因为目前来说,集显可能就是会慢一些

下载地址

默认
阿里云盘 提取码 44bc

选最新版本安装

安装视频

bilibili

问答

安装是否需要python环境

  • 不需要软件帮你了

安装是否需要特殊的网络环境

  • 不需要软件帮你了

下载失败怎么办?

  • 软件的话可以用阿里云下载
  • 里面的附加工具都做了镜像,人多的时候,或者有时候cloudflare抽风的时候可能就会比较慢。建议多尝试

在阿里云盘中加入了一个文本到向量模型,如果是在下载不下来可以用那个

文本纠错模型安装失败

  • 已经修复。虚拟机中测试正常
  • 主要原因还是有个包需要构建,然后大多数人没有那个环境,所以我改了下

字典导入一次缓存

  • 这个点难点不是字典导出,而是保存大小。因为经过向量化,和算法索引,有可能导出的大小是之前的几百倍。我测试时一个67k.6000+条的字典导入后变成了600+mb.这让我对这个功能实现感到悲观.这个体量如果上云下载一个是问题,谁也不能维护一个免费的平台供下载。。。
  • 目前已经支持显卡加速,不是特别差的显卡应该都有比cpu强的性能,也能缓解一下导入慢点问题
  • 所以暂时先延后.等其他功能都差不多的时候再讨论到底应该怎么实现

软件建议配置

  • 这个的话不太好建议,我只能说目前市面上8845h机型的笔记本就可以了。一个是cpu 8c16t ,一般最低内存16g(也可以上32g现在内存便宜了),也就3000多这个价格我觉得是比较可以的了。或者你不买amd机器,同样配置换成intel也行

gb2312编码乱码?

  • 右下角会有一个选择编码的按钮(上面的字可能是UT8或者其他的),点击后出现弹窗,通过编码重新打开,文本正常后。改成utf8在重新保存
  • gb2312是历史遗留问题。目前暂时是这样的。如果说文本多,并且希望批量改的人也多的话再考虑增加新的功能

括号颜色

  • 可以左下角设置中修改
  "workbench.colorCustomizations": {
        "editorBracketHighlight.foreground1": "#45aa79",
     
    }
  • 另外我看了后才发现没区分各种括号类型。所以这个样式的修改是所有括号颜色统一改的。未来会改成那种允许不同类型的括号不同颜色的设置

直接下载优先

  • 这个的真实意思就是,直接连接 github. huggingface等网站进行下载,不用镜像源。所以默认是不开启的。如果你非要用,请保证你能访问这些网站

最后

  • 如果还有其他问题欢迎提问,非紧急类型的bug会在下次更新修复
  • 感谢坛友支持,希望坛友们多提宝贵意见
5 个赞

教程也有了✯◡✯:v:

前天全都安装好了。今天也看了几个视频讲解,但是,除了搜索功能,其他功能都用不了,不知为何?视频讲了,说明看了,好像又都没看,因为软件这些功能的讲解和说明似乎又隔着一个窗户纸,说了但又好像没说透。
这么好的软件,就差个好的说明了。

下了最新版,用了一下,菜单到处都是问题,还不如前天那个版本。

这个问题是升级后出现的。我也不知道为啥。目前解决方案就是使用快速操作里面的清除语言包缓存(视频里最后面有提到过).这次等改完加速再处理。

清除后,好了。多谢。

我看您的导入词典非常快。我的台式机 i7 , 32G 内存都没您的快。不知为何?

目前发现的问题:
1、新版软件纠错模型下不了
2、自动补全 不知怎么开启。
3、编辑器右上方的那一排图标时有时无,大多数时候无。
4、在打开文件夹内,新建了一个脑图 *.nt,的文件,没用,脑图界面空空如也。
5、软件中几个工作流 示例 都无法正常运行,要不没反应,要不乱回答。
个别问题可能是我不会使用造成的。

因为视频加速了

1 个赞
  1. 模型下载没有具体进度条。。如果下载不下来可能是网络问题(您需要确保工具已经启动,也就是日志中有输出 Running on http://127.0.0.1:9900
  2. 自动补全是需要脑图配合。建立卡片自动提示
  3. 右上角的那些功能有一部分是需要保证文件处于保存状态下才能使用的,假如你在编辑器中输入没有保存的话就不会显示(防止误操作),保存 ctrl+s或者左上角的文件-》保存
  4. 脑图就是空的需要自己创建节点。右键创建新的节点
  5. 工作流有的是需要格式的,比如翻译工作流,其实是给右上角的每行处理用的,不建议直接使用(工作流还在建设中,所以教程中也没有统一说过)。建议在对话中使用模板。等我有空录下视频

多谢,悉心指点!

太强了。可以自己加对话功能。
屏幕截图 2024-09-03 081711
鼠标放在“模版列表”的“选中处理”上,点出现的“+”即可;
或,
鼠标放在“模版列表”的“通用对话”上,点出现的“+”即可;
另:
大模型改为:qwen2:1.5b,则速度原地起飞,非常快。

【ai加持一键安装-写作编辑器-哔哩哔哩】 ai加持一键安装-写作编辑器_哔哩哔哩_bilibili
(该软件作者官方完整的使用说明视频在这里,吐槽一下视频名,一直以为是个安装说明视频,数次被我忽视)

随着对该软件逐渐的掌握,越发被震撼到了。
就问作者有什么样的脑洞?凭一己之力,搞出这么惊艳的东西。dify,obsidian,印象笔记,还有一大堆离线搜索软件等等,都不如它好用。它是该类软件的《黑神话.悟空》吧!
还把二十年不变的 mdx 硬拉入 Ai 时代。

1 个赞

文件夹配置相同的情况下,向量数据库如何拷贝?能保证向量数据正常使用?

这次修改把以前存在的问题都解决了。我还有两个请求,不知能不能实现。1.目前关软件时没有任何提示,即便正在导入词典。2.自定义纠错可不可以支持正则表达式格式。目前只支持错词+正词,如果可以支持自定义正则表达式格式就好了。目前我只知道在Emeditor中通过批命令可以实现这个功能。

这个尽量.因为目前是用的模型自带的纠正.模型中没带的功能只能自己添加了,等改完字典导入加速后我研究下怎么搞比较好
其实kenlm模型还支持一个专业名词模式,就是只写正确的词,然后就会自动纠正
但是我试了下误杀性太高了.(没介绍过但是配置中可以用.)比如我文章中写了一个"只能",然后专有名词中写了一个智能…然后就被纠"错"了

1 个赞

这个需要单独开发功能,因为向量数据库还可以导入知识库(ai界叫法.就是各种文件txt.epub.ppt.word等).所以不能单纯的复制粘贴(假如你两台机器要同步的话复制没问题).需要单独开发导出导入
如果仅仅要同步,左下角有一个配置文件位置可以跳转,如果想同步的话就是复制knowledge_base(知识库位置)和qdrant(向量数据库安装位置)到其他电脑即可1:1同步

目前的知识库搜索,还是对词头本身意思的理解后的反馈,是否可以让它理解了该词头在词典中对应的解释后再反馈呢?

非常期待。目前我还没见过哪个校对软件支持用户添加正则表达式的错词表。

知识库和字典都是将内容先切片.然后转换成向量进行搜索.
比较通俗的说法就是假设模型可以把文本转换为1024个数字,那么这段话就有1024个属性.而搜索就是对比这1024个属性优先返回最相似的.

您的意思大概是磨洋工=>懒惰=>出工不出力等这种更加引申的含义也能搜索出来?目前增大维度可以缓解这个问题.因为维度越高保存的属性就越多,相对更容易找到这种引申含义.当然,更好的模型也可以在低维度下有更好的结果(但是国内模型就那么几个,好也没好出多少,否则就一家独大了)
目前.默认的是768维度.更大的还有1024 1536.但是,每增大一点,速度就会降低很多.这也是为啥我现在要把gpu加速搞上.没有它的话大家几乎没有选择模型的权利

批量制作卡片,在“构建节点”这一步,怎么操作,点了,但没有构建出卡片。


另:
1、是否可以通过导入文本的方式实现批量制卡?
2、软件可以支持多少卡片,不会出现软件卡顿?