双语对齐工具网页版 mlbee(任意语言对) + litbee + radiobee + ezbee

更新(2022-6-16) mlbee 同步升级到 0.1.0a2: 加了分句功能。三个网页同步更新:

更新(2022-6-10) mlbee 0.1.0a1 开发测试版 https://share.streamlit.io/ffreemt/mlbee/main/app_mlbee.py
https://huggingface.co/spaces/mikeee/mlbee huggingface spaces 版, 快二十倍的样子,Later by Stephen King 的英德整本书对齐只需5分钟。但只能嵌在hf界面里,左面的仪表盘收不起来。

http://forindo.net:8501/
一位网友提供的,速度和 huggingface 不差上下,但自成一体(没huggingface的网页头),左边的仪表板可以收起来

任意语言对(无需指定语言),对齐速度:1-2秒/对。即是说, 300对约需5-10分钟。

效果好像还不错,可惜有点慢。欢迎试用反馈。

更新(2022-6-3) litbee 0.1.2a3 整合 ezbee(中英),dzbee(中德)和debee(英德)https://share.streamlit.io/ffreemt/litbee/main/app.py

英、德、中 段段对齐基本可以用了,可上传,粘贴文本、直接从网址取文本,提供信心颜色码、xlsx下载 (tsv下载待修)

更新(2022-4-3) ezbee: 命令行中英对齐工具
安装(仅限python3.8):pip install ezbee==0.1.0a2poetry add ezbee==0.1.0a2
使用帮助: ezbee --helppython -m ezbee --help
其他安装选项参看 https://bumblebee.freeforums.net/thread/2/ezbee-cli-related?page=1&scrollTo=3

更新(2022-3-7) Huggingface Space好像出了点状态——radiobee输出乱套了(本地Linux运行正常)。论坛上发了贴求助,不知道有没人跟进。修好后我再在这更新。

网络版更新(2022-1-13):

  1. 加入了支持多语种的慢对模式(约千段几十秒的样子),快对模式(约千段几秒)仅限中英、英中语言对
  2. 限制了文本长度(单文件4000非空行,两个文件加一起6000非空行)
  3. 对齐后少于200行会显示一个一览表

更新(2022-1-10):仅限网络版https://huggingface.co/spaces/mikeee/radiobee-aligner (单机版等整好句句对齐功能后一起发beta版),自动分离对齐 单文件 中英 混合, 用法:上传到 file 1再点击 Submit

试用:选 Example 表里的最后一行(纽约时报的一篇文章),点击 Submit

更新(2021-12-30):单机浏览器测试版( Win10 64位版,其他Windows 64位机应该可以走起来) 链接: https://pan.baidu.com/s/1jNDXV7X_I_KCDOsqBk9saA?pwd=g634 提取码: g634

解压后点击 start-radiobee,在浏览器地址栏输入 127.0.0.1:7860 回车

=================

不是字典制作,也不是搜索,权且放这里吧。


《呼哮山莊》第一章对齐结果片段

也可以直接去https://huggingface.co/spaces/mikeee/radiobee-aligner 点击Examples里第一行,再点Submit看结果。

radiobee 工具仍处在开发初期,但基本可以用了,个人认为效果不错,而且速度很快,几千段几秒钟可以出结果。目前仅支持 中英 英中 文本上传文件(以后可能考虑docx、pdf格式或其他语言对)。可预览(上图),可以下载对齐后的 csv、xlsx 格式文档。

界面是英文的,但很简单,点击FILE 1, FILE 2 处上传或将文件拖到FILE 1、FILE 2处。点击 SUBMIT。(参数微调无需理会)几秒钟后就有结果。点击 CLICK TO DOWNLOAD CSV 下载文本文档或点击 CLICK TO DOWNLOAD XLSX下载 xlsx文档。

也可点击 Examples 里的文档做对齐看效果:含《呼哮山莊》第一章、莎士比亚全集前500段以及《红楼梦》第一章。

网页由机器学习公司Huggingface托管,我并不能看到或保存用户上传的内容。但使用时仍需注意去掉文件里的敏感信息。

radiobee aligner全部源码(除了一个文件外)可以在Files and versions(戳我)查看。

12 Likes

好久不见~

我经常来freemdict看看,不发言而已。

图片拖拽进来就可以了,ctrl v也可以,加一点介绍吧,不是太明白这个软件干啥。

就是双语对齐。可以用于做语料库或双语对照电子书。

1 Like

好东西!!!

希望以后可以支持汉日日汉双语对齐,谢谢!

1 Like

不太了解日语,日语和中文一样没空格要分词后才能查字典吧,如果有python的日语分词包以及日汉词典(mdx格式),做起来倒是不太费事。

4 Likes

这个好啊!可否出个win单机版?

单机浏览器版比较容易。等版本稳定一些后会打个包。其实源码已经差不多全部公开的,有py38环境可以下到自己机上运行。

非常期待单机浏览器版。

1 Like

准备周末推个单机浏览器版预览版,敬请关注 :grinning:

计划加上分句开关,可能一部分网友(尤其是用A bbyy Aligner的网友)有这个需求。顺便说一句,radiobee aligner基本上可以甩a bbyy aligner几条街,不信可以让a bbyy aligner去对齐一下 Examples里的shakespeare500红楼梦ch1 :mask:

2 Likes

如果能够胜过a bbyy aligner那就更值得期待了,本人愿意捐赠支持

制作英汉对照的内容还是有实用价值的。只是很多名为“英汉对照”的书,中英文隔得太远,前后来回翻来翻去,影响阅读体验。所以我一般尽量用外接大屏幕,分屏功能:左边中文右边英文。

最好的呈现方式是让中英文在一个屏幕界面之内,免去翻阅之苦。楼主的网页版不错,如果底层数据能生成HTML网页就好了。这样子,制作完毕后,可以单机查阅、边读边完善。

我的设想是用HTML和对应js代码实现。先让中英两句话或两段话有个共同的编号,然后用js生成一个随网页上下浮动的按钮。点击按钮即可依次切换光标所在位置对应编号的中文、英文、或者同时中英文。

1 Like

其实这个(双语电子书)是我做对齐的初衷。我做过一本试验性英汉双语 epub 电子书,正常英文,但每一句有一个链接,想看看双语的句子点击链接(多看阅读器可以显示弹窗),看完双语想继续看纯英文再点击双语里的一个链接。

和这个网站的双语 epub 差不多 https://www.doppeltext.com/en/bilingual-books/german-english,做中英的当然。

epub其实是一些 html文件,所以只要有句句对齐的资料,做单语和双语之间链接很容易的事。

1 Like

双解切换的其他思路,论坛之前有过个小结,供参考

这个工具是不是很依赖换行符作为文本对齐的重要判断依据?

如果两个文本的段落互相对不上(有些文本的分段符号混乱),篇幅又比较大的话,可能不太好对齐

radiobee现在是做段段对齐,可能会加个开关分句再做句句对齐。两个文本的段落互相对不上的例子可以看看 shakespeare500 (莎士比亚双语全集分离成中、英文后的前500段),点 https://huggingface.co/spaces/mikeee/radiobee-aligner 再点下面Examples里的第三行,

再点Submit
image
。几秒后可下载 xlsx文件
image
看结果。shakespear500中文的前面近300段是中文的前言,介绍什么的。

image

中文译文和英文原文的关系如上图所示(radiobee输出的一部分),绿黄线是对应中英文段之间的关系,例如中文第300段对应英文第一段,……,中文第500段对应英文的第200段。像这种文本送给 A bbyy Aligner做基本是啥都对不出来。radiobee 轻松搞定 :grinning:

freemdict论坛这个插图功能很好用,赞赞赞!

2 Likes

我通常使用A bbyy Aligner,非常希望能够加上一个分句开关,句句对齐,整段对齐对我而言没有什么意义。最好能够导出TMX格式的,不过没有这个功能也不要紧,关键是要对齐对得准,现在市面上最好的语料库软件也就那样,碰到复杂格式的根本对不准。不知道楼主用的方法是什么原理,我觉得先用机器翻译一遍再对齐效果应该非常好。

python小白期待能够直接点击exe运行版本。

从隔壁看到,楼主说要开发词级对齐功能和术语提取功能。比分句对齐又进了一步。

如果能够增加术语提取功能那就太好了,可赶超商业软件了。