Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

就是ptextpad。
我在处理~/Desktop路径下的东西,导出paras时,会崩溃。生成了~/Desktop\aligned\, ~/aligned\aligned\这样的文件夹,应该是哪句代码有问题,希望能修一下这个。
不过抛开这些小问题来说,程序还是能用的,合并完html,还需要手工处理一下生成的文件,再加到到epub里。

这个应该是老版遗留的问题,可能是 Path(“~/aligned”).expanduser() 没处理好,搜一下 expanduser 试试。下一版会修一下。

1 个赞

哦,ptextpad 少人用,其实有个绿色包 ptextpad 0.1.0a6 | Bumblebee 还有个 readme, 或许有点用。有兴趣的话可以加 qq群 316287378 实时交流。

附上ptextpad-1-0a6的readme.pdf
ptextpad-readme.pdf (192.6 KB)

开源的Meld可以自定义正则表达式pass掉部分内容再开始比较,这一点不错。

如果要实现“直接两本epub进去一本对齐的epub出来”,很多时候需要保留原来的html标签(中英文标签不一样),而目前mlbee可能还只能比较纯文本?如果能自定义正则表达式pass掉部分内容再开始对齐,这样就能保留使用原epub各自的css样式

2 个赞

想法挺好的。实现可能有一定难度——因为每一本epub里的html、css可能都不一样。而且结果只是双语版?不像115楼的 · 查泰莱夫人的情人1-3章(样本 双语句对句弹注)ChatterleysLover.epub (910.2 KB) 可以在单语和双语之间跳动。

1 个赞

用正则<.*?>就可以pass掉所有 html 标签,再对齐。但对齐得到一一对应关系后,还是沿用原来包含标签的文本。

如果要把一中一英的文本合并到一个html 文件中制作切换版(不一定非得是弹注,可以有个浮动按钮进行切换,类似双解切换mdx),则可以把原来的两个css都包括进来。(有些细节还需考虑,比如中英文相同的标签名tag、但样式设定不同,则标签需要区分cn_tag/en_tag)

1 个赞

我觉得可以弄得简单一点,改一下输出方式就好了
ptextpad目前的输出是

source  target  0.xx

改成这样输出

<p class="en">source</p>
<p class="zh">target</p>

这样一来输出的就直接是一个html,加上必要的头尾,就能加到书里了。

另外,输入html时最好去掉a标签这样的内容。
a标签通常是一些注释,混在双语里很难还原。
除了标题和段落,都去掉比较省心。
然后如果担心误伤,可以加个选项选择要不要去掉。

当然我没考虑双解切换之类的,要搞成切换应该也只要再加一个处理步骤而已。

1 个赞

直接处理 epub 的 html 文件倒是个不错的想法。我对epub格式不太了解。我做双语epub书都是基于 txt 文本,用了 EbookLib · PyPI 这个包。解压epub修改后再打包要看看用编程批量处理的可能性。基本上用 mlbee 直接对齐 html 是不太可行的。所以感觉会有很多边界情况要考虑。

1 个赞

ptextpad-electron Windows 64位安装包(测试版v0.0.3-0,但基本可以用了)

安装包高速下载 FreeMdict Cloud

Github repo GitHub - ffreemt/ptextpad-electron: A parallel text editor using electron

ptextpad-electron平行文本编辑器

  • 中英自动对齐
    • 超快,对齐一本书(例如《北京折叠》秒内~几秒完成)
  • 内置 in-cell 文本编辑器
  • 可导出对齐后 csv 格式文本
1 个赞

我几次想尝试你这个工具,都觉得有点麻烦就算了。

我感觉GUI在这里的意义不是很大,如果我来写我就用 python,运行后跳出

  • 第一个提问框:英文text文件的地址(或文件夹)
  • 第二个提问框:中文text文件的地址(或文件夹)
  • 第三个提问框:输出csv文件的地址(或文件夹)

后续对csv的手动修正在 EmEditor中很方便

出双语epub确实很需要,但还是先文本化、去除标签,然后对齐打包更可行

读小说学英语一般在移动设备上进行效率高,但是移动版epub阅读器似乎没有(?)支持双栏表格的,我以前是做成pdf在ipad上看,可以用Word的VBA脚本自动格式化然后打印成PDF,很久以前的事情了。后来还做过双栏格式放在印象笔记中看的,证明还是pdf要好一点,而且ipad上的不少pdf阅读器都做的非常好,文件同步标注查找目录比PC上都更方便。

在Word中把中英文排成双栏,写一个用于快速修订的宏,用半自动的方式逐行过一遍修正一下,一般中文译本的分段和原文差不会太多,工作量还可以承受,而且要看的小说也就那么几本,多也看不完。

你说的这个其实已经有了,可以导出 xlsx,csv格式,但没打成安装包或绿色包。你有python环境的话可以试试:

pip install ezbee

然后 ezbee --help (或 python -m ezbee)看使用方法

1 个赞

哦原来已经有了,那是我多虑了,谢谢!

我看了一下 ·emeditor· 编辑csv/tsv文件, 好像比较费劲,不太方便。ptextpad其实是想实现一些快键操作给自动对齐后手动微调修改用,例如上移一个表格(例如 ctrl-U),下移、分拆、合并,删除等等。electron里上移、下移应该是可以实现的,分拆、合并极有可能有一定难度。

我以为象插入一个空格这样的活emeditor能干,居然不行,高估它了。

以前在 Word中写过这中修订表格错位的vba宏,如果我做还是宁愿在emeditor中写几个宏,应该不算复杂

我想提一个奇怪的需求:英英对齐。目的是对Whisper的字幕进行修正。
比方说我现在用Whisper/Whisperx对一本audiobook生成了字幕,虽然Whisper的准确率已经相当可以,毕竟还是有错误。然后我手头又有这本audiobook对应的epub,于是就想用epub对Whisper的字幕进行修正。按理说楼主的对齐工具就能用,不过我试了试不行,大概是因为目前没有针对英英对齐进行设定。不知道楼主是否能考虑一下。按理说应该更为简单,毕竟Whisper生成的字幕99%是准确的,差别主要在于标点符号(基本上会丢失引号)、专有名词等。
最理想的状态是上传srt和epub,自动生成校正后的srt(即,用epub中对应的文本替换srt中的字幕)。退一步可以分别上传srt转换出来的txt和epub转换出来的txt,对齐后再手动贴回去。

按道理 mlbee 做英英对齐是没有问题的,对齐算法本身并没有限制两个语言必须不同。方便的话传个样本我来试试。