Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

感谢,请整个单机版 :smiley:

1 个赞

litbee 0.1.3a1 单机版(可脱网运行)
可从三个安装方法里选一个,从易到难,下载文件从大到小:

litbee 启动后应该会自动打开浏览器,如不成功可直接在浏览器地址栏输入 localhost:8501 回车。

litbee 另含三个命令行工具 ezbee(中英)、dzbee(中德)、debee(德英)。可在命令行下调用:python -m ezbee --helppython -m dzbee --helppython -m debee --help 查看文档。

有问题跟帖或加QQ群316287378

2 个赞

MU大侠的作品每次都会给我们带了惊喜!

期待攻下句对齐后向双语术语提取冲锋。目前双语术语提取只有trados multiterm extract可用,提取结果简直是一坨屎。SDL技术上无任何更新,居然每年换个包装,继续售卖。

哈哈哈!诚哉斯言!

试了下三体的中英文本合体,效果不理想。 楼主能否做一个中英文字幕合并的项目,我个人觉得实用性应该比这个高

感谢反馈。

蜜蜂系列里几乎所有的工具(ezbee……litbee,radiobee)主要是做段段对齐,不适合对字幕,原因是字幕每段太短。蜜蜂系列的特点是速度快。你可以试试对三体小说。直接句句对齐(或对双语字幕)也可以用机器学习算法做,但速度慢(大约千句对三分钟上下)。litbee以后可能会加入基于机器学习的直接句句对齐功能。

你说的字幕合并可是中文字幕文件(例如srt格式)和英文字幕文件合并?字幕文件一般都有时间信息,合并应该比较容易做到。

我会加油。句句对齐可以说实际上已经基本解决。整合到litbee及其他bee里需要一些时间。
提取术语需要词组对齐,大致也可以做。目前主要问题是速度慢,对一本书可能要几天几十天那种,不太实用。

混合文本如何对齐?拖入后对齐按钮灰色不可用,去掉该功能了吗?

litbee还没整合混合文本,需要一点时间。命令行工具ezbee、dzbee、debee有个 -s 开关。参看python -m ezbee --help, dzbeedebee的-s开关未仔细测试。

谢谢指教!明白了 :ok_hand:

大佬甭客气啊 :grinning:

1 个赞

是的,就是中文字幕文件(例如srt格式)和英文字幕文件合并,但是因为一是两种字幕的时间轴不同,二是每句字幕的长度和内容不同,所以对应合并很困难,一直没有好的解决方案。

哦,对哦,两个时间轴可能不完全一样……

我打算整一个直接句句对齐的(因此也可以对字幕),基于机器学习,会慢一点(与ezbee之类的快对齐比较),需要一点时间实现,其实库都写好了,只需要整合到一个界面下。

mlbee 0.1.0a1 开发测试版 https://share.streamlit.io/ffreemt/mlbee/main/app_mlbee.py

任意语言对(无需指定语言),对齐速度:1-2秒/对。即是说, 300对约需5-10分钟。

效果好像还不错,可惜有点慢。欢迎试用反馈。

https://huggingface.co/spaces/mikeee/mlbee
再给个 huggingface spaces 版,好像快很多,暂时不知道什么原因。

快二十倍的样子,Later by Stephen King 的英德整本书对齐只需5分钟。

好奇地问一句,能不能简体和繁体对齐?

1 个赞

mlbee 自然可以。其实litbee都可以。命令行ezbee、dzbee、debee还要稍微改一下才可以。

2 个赞

各路大佬,到了折腾词组、或字字对齐(可做术语提取)的时候了,请期待 :grinning:
欢迎交流或有兴趣的网友加盟折腾

2 个赞

十分期待! :drooling_face: