Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

因为文本太长了,不过已经改了限制,现在可以了,已经改成两语混合的单文件限制 4000(非空)行,双文件加一起限制 6000(非空)行。

限制文件长度是因为几天前有群友对了一个几万行的单文件,最后内存用光程序挂掉!托管radiobee 的 huggingfaceface spaces 只提供单个服务,即是说一个任务完成以前不能接受其他任务(参见上面群友反馈的 504 Gateway Timeout)。

哥们,赶快发个单机版测试,这几天在家有点空!那个网速太慢了。

快了,差不多要出句句对齐beta版了。其实网页版处理速度很快的,比一般本子快100倍到1000倍!连接网速自然与网络瓶颈有关,不好说。

好期待!:clap::clap: :+1:

请教下,是不是句子长了对齐效果很差?

太长的(500单词以上的)段会有影响。大量段直接分句后送给 radiobee 效果可能不太好,不是因为句子太长而是因为句子太短。

句对齐的话可以试试 radiobee 开发版 https://huggingface.co/spaces/mikeee/radiobee-dev,最下面有个句对齐选项。

哥们,啥时候更新下单机版玩玩?
网络版登不上啊!

您给的网页版我这儿也打不开呢。

hmm… 段段对齐这个https://huggingface.co/spaces/mikeee/radiobee-aligner 可以打开不?

我知道啥原因了,网址混到一块了。再试试https://huggingface.co/spaces/mikeee/radiobee-dev. 或先去 https://huggingface.co/mikeee 再选一个。

我想想咋整…… 句句对齐第一次运行的时候需要从https://huggingface.co/mikeee/model_s/tree/main 下载两个大文件(共1.5G),句句对齐对算力和内存要求都比较高,否则会很慢(中低端本子30个句对需20分钟的级别)。而Huggingface托管的网络版可能只需2-3分钟。

如果这些都不是问题,我找时间整个单机版。

1 个赞

段段对齐可以打开了,谢谢!
下载几个大文件不是问题,而句句对齐30句需要20分钟,那就没有人工来得快,还是再等等吧!
期待技术大侠早日攻破难关!

ezbee: 命令行中英对齐工具
安装(仅限python3.8):pip install ezbee==0.1.0a2poetry add ezbee==0.1.0a2
使用帮助: ezbee --helppython -m ezbee --help
其他安装选项参看 https://bumblebee.freeforums.net/thread/2/ezbee-cli-related?page=1&scrollTo=3

1 个赞

谢谢指教!:joy:

可以,现在已经很强大了,不久就会成为这一领域的的翘楚!

litbee 0.1.2a3 整合 ezbee(中英),dzbee(中德)和debee(英德)https://share.streamlit.io/ffreemt/litbee/main/app.py

英、德、中 段段对齐基本可以用了,可上传,粘贴文本、直接从网址取文本,提供信心颜色码、xlsx下载(tsv下载待修)

1 个赞

用两个巨大样本做了测试,有如下报错:
UnicodeEncodeError: This app has encountered an error. The original error message is redacted to prevent data leaks. Full error details have been recorded in the logs (if you’re on Streamlit Cloud, click on ‘Manage app’ in the lower right of your app).
Traceback:
File “/home/appuser/venv/lib/python3.8/site-packages/streamlit/scriptrunner/script_runner.py”, line 475, in _run_script
exec(code, module.dict)
File “/app/litbee/app.py”, line 199, in
main()
File “/app/litbee/app.py”, line 187, in main
app.run()
File “/app/litbee/litbee/multipage.py”, line 65, in run
self.pages[index]“function”
File “/app/litbee/litbee/home.py”, line 276, in home
df_a.astype(str).to_csv(output, sep=“\t”, index=False, header=False, encoding=“gbk”)
File “/home/appuser/venv/lib/python3.8/site-packages/pandas/core/generic.py”, line 3551, in to_csv
return DataFrameRenderer(formatter).to_csv(
File “/home/appuser/venv/lib/python3.8/site-packages/pandas/io/formats/format.py”, line 1180, in to_csv
csv_formatter.save()
File “/home/appuser/venv/lib/python3.8/site-packages/pandas/io/formats/csvs.py”, line 261, in save
self._save()
File “/home/appuser/venv/lib/python3.8/site-packages/pandas/io/formats/csvs.py”, line 266, in _save
self._save_body()
File “/home/appuser/venv/lib/python3.8/site-packages/pandas/io/formats/csvs.py”, line 304, in _save_body
self._save_chunk(start_i, end_i)
File “/home/appuser/venv/lib/python3.8/site-packages/pandas/io/formats/csvs.py”, line 315, in _save_chunk
libwriters.write_csv_rows(
File “pandas/_libs/writers.pyx”, line 72, in pandas._libs.writers.write_csv_rows

感谢反馈。
是个bug,修好了——暂时只输出 xlsx,期间修tsv输出。

感谢修复!目前是段落对齐,接下来能支持逐句对齐吗?

litbee 以后会支持句句对齐的,需要一点时间。litbee 也有个单机绿色版,有网友感兴趣的话我可以整个百度盘下载。

如果想先看看句句对齐效果,可以试试 https://huggingface.co/spaces/mikeee/radiobee-dev。句句对齐不可能100%完美,但我敢大胆地说极有可能仍然甩坊间同类工具几条街 :grinning:

radobee-dev 可选句句对齐。但只支持 英中 的段段快对,其他语言对是段段慢对。暂时只能下载,不能预览。(本来是有预览的,但托管的huggingface升级或是gradio升级导致预览乱套,就禁用了预览功能。)

3 个赞