为什么不在电子表格中直接简繁转码,何必对齐?
我说错了,我想说的是文白对照。不过简繁对齐也会有用处,毕竟转码并不可靠。
文白对齐可能用现有模型不行,需要另外训练模型。不过你可以试试,估计效果不会太好。
确实不行
看来machine learning挺有意思的,能让机器去干粗活累活
Have fun!
楼主效率真高!前几天才提到词级对齐,现在就开始要动工了。期待!
试用了一下,准确率明显比abby高太多,但是有的地方句子拆分不准,还是段落对齐。
楼主有没有考虑像tmxmall aligner一样
设置几个简单的编辑按钮,允许导出来之前,手工调整对齐效果不好的部分?
感谢反馈。
其实已经有了简单的编辑功能了,点击editable aligned那,目前只能简单的剪贴编辑。目前不清楚编辑后的结果是不是已经存到下载。我还没来得及测试——因为太多的东西需要测试,而且只能交互测试不能自动测试,很费时间。
mlbee的分句还没整合进去。分句的库已经有了,在想要不要整分句。分句不像分段一样比较统一。trados分句可能和memoq分句不一样。所以可能干脆直接交给用户自己分句后在交给mlbee处理。
mlbee 同步升级到 0.1.0a2: 加了分句功能。三个网页同步更新:
- http://forindo.net:8501/ 推荐,快
- https://huggingface.co/spaces/mikeee/mlbee 也快,但网页地产被hf占了一部分
- https://share.streamlit.io/ffreemt/mlbee/main/app_mlbee.py 慢,但独占全部网页
那个简单编辑功能拿掉了,好像很容易崩溃,要看看是什么原因。
能做一个输入两个epub,输出一个双语对照epub的功能吗,或者有没有相关的思路?
我觉得比起做字字对齐什么的,还是这样更实用一点。
现在的输入必须是txt,输出是xlsx,手工的话从html转来再转回去实在是很麻烦。
需求不同。你可能只是为了阅读,还有人为了翻译,所以词对齐也非常有必要的。
其实你说的也是我折腾对齐的目的之一。几年前就出过样本(见附件epub,里面的对齐不尽理想,主要是展示想法)。
但直接两本epub进去一本对齐的epub出来,结果恐怕会有很多需要修改的地方,中间肯定需要人工干预微调什么的。这个干预的工具测试版(基于pyqt5)已经写出来了: https://pypi.org/project/ptextpad/。有兴趣的话可以试用一下。尽管是测试版,但应该大致可以用了。支持的格式也多一些,可能也支持epub,但没有大面积测试过。
最近有别的事情加上本子失联,大意没做备份,丢了很多资料和笔记,还要从头配置环境,有点焦头烂额。暂时需要搁置一下。
词对齐本身是可以做的,可能会比句对齐段对齐慢一点。但英文的分词(或者说分词组)有点麻烦,中文分词反而有比较多的现成pypi包可以用。
其实我也折腾过英文分词 phrase-tokenizer · PyPI 。但效果好像不太理想。我也试着搜过,没有找到可用的包。
这个工作的难度恐怕不低于OCR吧,我理解你这个工具和 abby aligner 引擎不一样改善了正确率,不知道对不对?
我觉得如果能输入一个英文txt和一个中文txt,然后直接输出双列表格格式的epub,并且不要把段落打散,相信很多英语学习者都会大量使用。以前手动干过不少这个活。
我试着解释一下。以微软术语 data link layer 为例 https://www.microsoft.com/zh-cn/language/Search?&searchTerm=data%20link%20layer&langID=124&Source=true&productid=undefined,这个术语并不是独立的三个单词,而是一个整体。就是说这个词组出现时肯定固定地翻译成“数据链路层”。
现在再设想一下,我们并不知道data link layer是个术语。我们只有原文和译文。如何才能提取 data link layer/数据链路层 这个术语对呢?
可能的做法是,先将英文和中文分词(或者说分词组),再进行词组对齐。再做些处理等等,希望最后拿到了所有的 术语对。
并没有那么难啊,mlbee已经展示了是可行的。下一步只是将对齐的段或句再组合成双语对照的epub。
好像bug有点多啊。。
- python3.10安装报错,python3.8成功
-
main.py, line 664, in export_paras
os.startfile(os.path.dirname(self.parafile))
os.startfile似乎在Mac和Linux不可用,请考虑换个函数 - windows以外的系统路径请用/隔开,不是\
只支持 python3.8,github上应该有个说明。不知大佬指哪个bee。记得有些bee里的os.startfile是判断过只在Windows启动。业余项目,即便是Windows里都无大规模测试。基本只是个proof of concept。