网络版https://huggingface.co/spaces/mikeee/radiobee-aligner更新:自动分离对齐 单文件 中英 混合, 用法:上传到 file 1再点击 Submit
试用:选 Example 表里的最后一行(纽约时报的一篇文章),点击 Submit
网络版https://huggingface.co/spaces/mikeee/radiobee-aligner更新:自动分离对齐 单文件 中英 混合, 用法:上传到 file 1再点击 Submit
试用:选 Example 表里的最后一行(纽约时报的一篇文章),点击 Submit
旧功能改进效果:
现在只有四五个段落的小文件现在也能够很好的进行段落对齐了。
新功能发现的问题:
问题1:网页版google浏览器页面显示不全,从第一版就有这个问题, Edge正常。
问题2:测试了一个很小的双语混合文件,发现没有对齐,尤其是标题没有对齐,而且中文的最后一个段落无故消失了。
问题3:测试一个稍大的,对齐效果较好,但标题任然没对齐。
建议:混合文件可以采用识别段落标记的方法进行初步对齐。对绝大多数混合文件,可以达到98%甚至100%的对齐。例如,我们在OFFICE Word对双语混合文件通过插如文本转换为二列表格可达到100%对齐;如果段落标记不一致,则可以引入其它方法改进。
问题2测试文件.txt (2.3 KB)
问题3测试文件.txt (57.4 KB)
感谢反馈。我会仔细看看三个问题。你指的google浏览器是否是Chrome?我都是用Chrome 100%(未用放大缩小)测试。
radiobee 目前处理中英混合其实是先分离再当成两个文件处理。所以目标更多的是那些不完全是一一对应(例如中间有插图、或注释之类的)的中英混合的文本。而且radiobee在一定程度上也依靠前后文帮助对齐。逐段处理自然也是可以实现的,不过有些太麻烦,不适合网页版,也影响速度,或许以后会考虑。
我应该已经修好了第二个bug(标题未对齐)和第三个bug(落了最后一组文本)。
哥们修复神速啊!刚才测试了下带很多插图的中英混排书籍的对齐,对齐效果确实好于abbyy Aligner。明天我再测试下改进的情况!
经测试,英汉交替文本对齐基本能达到99%,只有个别无对应译文的,如时间,或作者的信息等没对齐,属于正常。
所以,哥们可以继续做句子层次对齐了!
感谢反馈。我会加油
托马斯·潘恩《常识》 (
塑造美国的88本书常识(英汉双语对照) by 托马斯•潘恩 (z-lib.org).epub (403.6 KB)
epub 和
塑造美国的88本书常识(英汉双语对照) by 托马斯•潘恩 (z-lib.org).txt (306.4 KB)
txt) 整本书撂给 radiobee 压测结果(上图仅显示对齐线)。
有兴趣的网友自己动手试试:
用时仅 3.2秒!
PS:个人认为,此书值得对政治有点兴趣的群友一读,即便对政治没有兴趣读一读此书也有助于拓展视野。
likelihood 没有值的对是因为那些对并不是经过计算得出来的,而是由前后句对推演出来的——即是说,前后对好了,夹在中间就放在那里了。
句对齐比ABBY强太多,大神最近有无计划向词对齐和提取迈进?
明白了。现在就等强大、更为实用的句级对齐了!给楼主推荐句子对齐的博士作品,看能否有启示?
bilingual-sentence-aligner.tar.gz (19.0 KB)
hunalign.0.8.precompiledForWindows.zip (4.0 MB)
有群友好像一次对几十本书,太猛了,整趴了 radiobee。我修一下,顺便限制一下文本长度。
句句对齐细节多一点,网页版再多加几个开关开始有点乱了。其实目前也可以分句后直接送给radiobee 对齐。
我在试着加其他语种的对齐功能…… 可行的话完了后再一起折腾句句对齐。
多谢!也期盼早上看到正式单机版。
radiobee 更新
radiobee网络版已经加入了其他语言对(德中、德英等等近50种语言)的对齐功能。正常一点的文本(如Example表里的 demian-hesse 德英)效果挺不错,也够快(1000对约30秒),有兴趣的话可以试试汉日日汉。
盼望带句子对齐开关的单价版早日诞生!