Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

lixiaoshun · 2022 年6 月 11 日 04:03

为什么不在电子表格中直接简繁转码，何必对齐？

sxingbai · 2022 年6 月 11 日 04:48

我说错了，我想说的是文白对照。不过简繁对齐也会有用处，毕竟转码并不可靠。

mikeee · 2022 年6 月 11 日 05:11

文白对齐可能用现有模型不行，需要另外训练模型。不过你可以试试，估计效果不会太好。

mikeee · 2022 年6 月 11 日 07:02

再提供一个 http://forindo.net:8501/
是一位网友提供的，速度和 huggingface 不差上下，但自成一体（没huggingface的网页头），左边的仪表板可以收起来

sxingbai · 2022 年6 月 11 日 07:44

确实不行

endnote · 2022 年6 月 11 日 08:39

看来machine learning挺有意思的，能让机器去干粗活累活
Have fun!

WalkingDictionary · 2022 年6 月 11 日 10:06

楼主效率真高！前几天才提到词级对齐，现在就开始要动工了。期待！

WalkingDictionary · 2022 年6 月 12 日 01:08

试用了一下，准确率明显比abby高太多，但是有的地方句子拆分不准，还是段落对齐。
楼主有没有考虑像tmxmall aligner一样
设置几个简单的编辑按钮，允许导出来之前，手工调整对齐效果不好的部分？

mikeee · 2022 年6 月 12 日 03:41

感谢反馈。

其实已经有了简单的编辑功能了，点击editable aligned那，目前只能简单的剪贴编辑。目前不清楚编辑后的结果是不是已经存到下载。我还没来得及测试——因为太多的东西需要测试，而且只能交互测试不能自动测试，很费时间。

mlbee的分句还没整合进去。分句的库已经有了，在想要不要整分句。分句不像分段一样比较统一。trados分句可能和memoq分句不一样。所以可能干脆直接交给用户自己分句后在交给mlbee处理。

mikeee · 2022 年6 月 16 日 09:36

mlbee 同步升级到 0.1.0a2：加了分句功能。三个网页同步更新：

那个简单编辑功能拿掉了，好像很容易崩溃，要看看是什么原因。

RANP0 · 2022 年10 月 7 日 21:20

能做一个输入两个epub，输出一个双语对照epub的功能吗，或者有没有相关的思路？
我觉得比起做字字对齐什么的，还是这样更实用一点。
现在的输入必须是txt，输出是xlsx，手工的话从html转来再转回去实在是很麻烦。

WalkingDictionary · 2022 年10 月 8 日 00:17

需求不同。你可能只是为了阅读，还有人为了翻译，所以词对齐也非常有必要的。

mikeee · 2022 年10 月 8 日 05:20

其实你说的也是我折腾对齐的目的之一。几年前就出过样本（见附件epub，里面的对齐不尽理想，主要是展示想法）。

但直接两本epub进去一本对齐的epub出来，结果恐怕会有很多需要修改的地方，中间肯定需要人工干预微调什么的。这个干预的工具测试版（基于pyqt5）已经写出来了： https://pypi.org/project/ptextpad/。有兴趣的话可以试用一下。尽管是测试版，但应该大致可以用了。支持的格式也多一些，可能也支持epub，但没有大面积测试过。

最近有别的事情加上本子失联，大意没做备份，丢了很多资料和笔记，还要从头配置环境，有点焦头烂额。暂时需要搁置一下。

mikeee · 2022 年10 月 8 日 06:24

词对齐本身是可以做的，可能会比句对齐段对齐慢一点。但英文的分词(或者说分词组)有点麻烦，中文分词反而有比较多的现成pypi包可以用。

其实我也折腾过英文分词 phrase-tokenizer · PyPI 。但效果好像不太理想。我也试着搜过，没有找到可用的包。

WalkingDictionary · 2022 年10 月 8 日 07:58

外行问一个问题，英语为什么要分词？空格不是已经把词分开了吗？
听说过 Stanford Parser，不知道是不是你讲的那种
还有 maltparser

surfactant · 2022 年10 月 8 日 09:09

这个工作的难度恐怕不低于OCR吧，我理解你这个工具和 abby aligner 引擎不一样改善了正确率，不知道对不对？

我觉得如果能输入一个英文txt和一个中文txt，然后直接输出双列表格格式的epub，并且不要把段落打散，相信很多英语学习者都会大量使用。以前手动干过不少这个活。

mikeee · 2022 年10 月 8 日 11:33

现在再设想一下，我们并不知道data link layer是个术语。我们只有原文和译文。如何才能提取 data link layer/数据链路层这个术语对呢？

可能的做法是，先将英文和中文分词（或者说分词组），再进行词组对齐。再做些处理等等，希望最后拿到了所有的术语对。

mikeee · 2022 年10 月 8 日 11:35

并没有那么难啊，mlbee已经展示了是可行的。下一步只是将对齐的段或句再组合成双语对照的epub。

RANP0 · 2022 年10 月 13 日 15:50

好像bug有点多啊。。

python3.10安装报错，python3.8成功
main.py, line 664, in export_paras
os.startfile(os.path.dirname(self.parafile))
os.startfile似乎在Mac和Linux不可用，请考虑换个函数
windows以外的系统路径请用/隔开，不是\

mikeee · 2022 年10 月 15 日 14:58

只支持 python3.8，github上应该有个说明。不知大佬指哪个bee。记得有些bee里的os.startfile是判断过只在Windows启动。业余项目，即便是Windows里都无大规模测试。基本只是个proof of concept。