Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

网络版https://huggingface.co/spaces/mikeee/radiobee-aligner更新:自动分离对齐 单文件 中英 混合, 用法:上传到 file 1再点击 Submit

试用:选 Example 表里的最后一行(纽约时报的一篇文章),点击 Submit

旧功能改进效果:
现在只有四五个段落的小文件现在也能够很好的进行段落对齐了。
新功能发现的问题:
问题1:网页版google浏览器页面显示不全,从第一版就有这个问题, Edge正常。
问题2:测试了一个很小的双语混合文件,发现没有对齐,尤其是标题没有对齐,而且中文的最后一个段落无故消失了。
问题3:测试一个稍大的,对齐效果较好,但标题任然没对齐。
建议:混合文件可以采用识别段落标记的方法进行初步对齐。对绝大多数混合文件,可以达到98%甚至100%的对齐。例如,我们在OFFICE Word对双语混合文件通过插如文本转换为二列表格可达到100%对齐;如果段落标记不一致,则可以引入其它方法改进。
问题2测试文件.txt (2.3 KB)
问题3测试文件.txt (57.4 KB)

感谢反馈。我会仔细看看三个问题。你指的google浏览器是否是Chrome?我都是用Chrome 100%(未用放大缩小)测试。

radiobee 目前处理中英混合其实是先分离再当成两个文件处理。所以目标更多的是那些不完全是一一对应(例如中间有插图、或注释之类的)的中英混合的文本。而且radiobee在一定程度上也依靠前后文帮助对齐。逐段处理自然也是可以实现的,不过有些太麻烦,不适合网页版,也影响速度,或许以后会考虑。

我应该已经修好了第二个bug(标题未对齐)和第三个bug(落了最后一组文本)。

哥们修复神速啊!刚才测试了下带很多插图的中英混排书籍的对齐,对齐效果确实好于abbyy Aligner。明天我再测试下改进的情况!

经测试,英汉交替文本对齐基本能达到99%,只有个别无对应译文的,如时间,或作者的信息等没对齐,属于正常。
所以,哥们可以继续做句子层次对齐了!

感谢反馈。我会加油 :mask:

托马斯·潘恩《常识》 (
塑造美国的88本书常识(英汉双语对照) by 托马斯•潘恩 (z-lib.org).epub (403.6 KB)
epub 和
塑造美国的88本书常识(英汉双语对照) by 托马斯•潘恩 (z-lib.org).txt (306.4 KB)
txt) 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。

有兴趣的网友自己动手试试:

  1. 下载上面的 txt 文件拖到 https://huggingface.co/spaces/mikeee/radiobee-aligner file 1 处
  2. 点击Submit
  3. 点击对齐线图下面一点的对齐结果下载段段对齐 csv 和 xlsx 文件或在线查看对齐效果。

用时仅 3.2秒!

PS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。

1 个赞

应该是所有对齐的行或段有个likelihood似然值,值越大,对齐的效果越好。但同一个文件,为什么有些对齐的段落,likelihood没有值呢?见图。



你所发的测试文件对齐也有这个情况。

likelihood 没有值的对是因为那些对并不是经过计算得出来的,而是由前后句对推演出来的——即是说,前后对好了,夹在中间就放在那里了。

1 个赞

句对齐比ABBY强太多,大神最近有无计划向词对齐和提取迈进?

明白了。现在就等强大、更为实用的句级对齐了!给楼主推荐句子对齐的博士作品,看能否有启示?
bilingual-sentence-aligner.tar.gz (19.0 KB)
hunalign.0.8.precompiledForWindows.zip (4.0 MB)

image

有群友好像一次对几十本书,太猛了,整趴了 radiobee。我修一下,顺便限制一下文本长度。

句句对齐细节多一点,网页版再多加几个开关开始有点乱了。其实目前也可以分句后直接送给radiobee 对齐。

我在试着加其他语种的对齐功能…… 可行的话完了后再一起折腾句句对齐。

多谢!也期盼早上看到正式单机版。

radiobee 更新

  1. 加入了支持多语种的慢对模式。不过对中德西游记第一章的效果并不好,原因可能是德文版是根据英文版翻译的以及语言模型与中文《西游记》的行文不吻合。
  2. 限制了文本长度
  3. 对齐后少于200行会显示一个一览表


demian-hesse 德英(近900对)

radiobee网络版已经加入了其他语言对(德中、德英等等近50种语言)的对齐功能。正常一点的文本(如Example表里的 demian-hesse 德英)效果挺不错,也够快(1000对约30秒),有兴趣的话可以试试汉日日汉。

2 个赞

盼望带句子对齐开关的单价版早日诞生!

1 个赞

此文件不知为何对齐显示错误
test.txt (137.3 KB)