Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

为什么不在电子表格中直接简繁转码,何必对齐?

我说错了,我想说的是文白对照。不过简繁对齐也会有用处,毕竟转码并不可靠。

文白对齐可能用现有模型不行,需要另外训练模型。不过你可以试试,估计效果不会太好。

1 个赞

再提供一个 http://forindo.net:8501/
是一位网友提供的,速度和 huggingface 不差上下,但自成一体(没huggingface的网页头),左边的仪表板可以收起来

确实不行 :wink:

1 个赞

看来machine learning挺有意思的,能让机器去干粗活累活
Have fun!

1 个赞

楼主效率真高!前几天才提到词级对齐,现在就开始要动工了。期待!



试用了一下,准确率明显比abby高太多,但是有的地方句子拆分不准,还是段落对齐。
楼主有没有考虑像tmxmall aligner一样
设置几个简单的编辑按钮,允许导出来之前,手工调整对齐效果不好的部分?

1 个赞

感谢反馈。

其实已经有了简单的编辑功能了,点击editable aligned那,目前只能简单的剪贴编辑。目前不清楚编辑后的结果是不是已经存到下载。我还没来得及测试——因为太多的东西需要测试,而且只能交互测试不能自动测试,很费时间。

mlbee的分句还没整合进去。分句的库已经有了,在想要不要整分句。分句不像分段一样比较统一。trados分句可能和memoq分句不一样。所以可能干脆直接交给用户自己分句后在交给mlbee处理。

1 个赞

mlbee 同步升级到 0.1.0a2: 加了分句功能。三个网页同步更新:

那个简单编辑功能拿掉了,好像很容易崩溃,要看看是什么原因。

1 个赞

能做一个输入两个epub,输出一个双语对照epub的功能吗,或者有没有相关的思路?
我觉得比起做字字对齐什么的,还是这样更实用一点。
现在的输入必须是txt,输出是xlsx,手工的话从html转来再转回去实在是很麻烦。

3 个赞

需求不同。你可能只是为了阅读,还有人为了翻译,所以词对齐也非常有必要的。

1 个赞

其实你说的也是我折腾对齐的目的之一。几年前就出过样本(见附件epub,里面的对齐不尽理想,主要是展示想法)。

但直接两本epub进去一本对齐的epub出来,结果恐怕会有很多需要修改的地方,中间肯定需要人工干预微调什么的。这个干预的工具测试版(基于pyqt5)已经写出来了: https://pypi.org/project/ptextpad/。有兴趣的话可以试用一下。尽管是测试版,但应该大致可以用了。支持的格式也多一些,可能也支持epub,但没有大面积测试过。

最近有别的事情加上本子失联,大意没做备份,丢了很多资料和笔记,还要从头配置环境,有点焦头烂额。暂时需要搁置一下。

查泰莱夫人的情人1-3章(样本 双语句对句弹注)ChatterleysLover.epub (910.2 KB)

3 个赞

词对齐本身是可以做的,可能会比句对齐段对齐慢一点。但英文的分词(或者说分词组)有点麻烦,中文分词反而有比较多的现成pypi包可以用。

其实我也折腾过英文分词 phrase-tokenizer · PyPI 。但效果好像不太理想。我也试着搜过,没有找到可用的包。

外行问一个问题,英语为什么要分词?空格不是已经把词分开了吗?
听说过 Stanford Parser,不知道是不是你讲的那种
还有 maltparser

这个工作的难度恐怕不低于OCR吧,我理解你这个工具和 abby aligner 引擎不一样改善了正确率,不知道对不对?

我觉得如果能输入一个英文txt和一个中文txt,然后直接输出双列表格格式的epub,并且不要把段落打散,相信很多英语学习者都会大量使用。以前手动干过不少这个活。

1 个赞

我试着解释一下。以微软术语 data link layer 为例 https://www.microsoft.com/zh-cn/language/Search?&searchTerm=data%20link%20layer&langID=124&Source=true&productid=undefined,这个术语并不是独立的三个单词,而是一个整体。就是说这个词组出现时肯定固定地翻译成“数据链路层”。

现在再设想一下,我们并不知道data link layer是个术语。我们只有原文和译文。如何才能提取 data link layer/数据链路层 这个术语对呢?

可能的做法是,先将英文和中文分词(或者说分词组),再进行词组对齐。再做些处理等等,希望最后拿到了所有的 术语对。

并没有那么难啊,mlbee已经展示了是可行的。下一步只是将对齐的段或句再组合成双语对照的epub。

1 个赞

好像bug有点多啊。。

  1. python3.10安装报错,python3.8成功
  2. main.py, line 664, in export_paras
    os.startfile(os.path.dirname(self.parafile))
    os.startfile似乎在Mac和Linux不可用,请考虑换个函数
  3. windows以外的系统路径请用/隔开,不是\

只支持 python3.8,github上应该有个说明。不知大佬指哪个bee。记得有些bee里的os.startfile是判断过只在Windows启动。业余项目,即便是Windows里都无大规模测试。基本只是个proof of concept。