Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

RANP0 · 2022 年10 月 15 日 15:46

就是ptextpad。
我在处理~/Desktop路径下的东西，导出paras时，会崩溃。生成了~/Desktop\aligned\, ~/aligned\aligned\这样的文件夹，应该是哪句代码有问题，希望能修一下这个。
不过抛开这些小问题来说，程序还是能用的，合并完html，还需要手工处理一下生成的文件，再加到到epub里。

mikeee · 2022 年10 月 16 日 00:01

这个应该是老版遗留的问题，可能是 Path(“~/aligned”).expanduser() 没处理好，搜一下 expanduser 试试。下一版会修一下。

mikeee · 2022 年10 月 16 日 00:10

哦，ptextpad 少人用，其实有个绿色包 ptextpad 0.1.0a6 | Bumblebee 还有个 readme，或许有点用。有兴趣的话可以加 qq群 316287378 实时交流。

附上ptextpad-1-0a6的readme.pdf
ptextpad-readme.pdf (192.6 KB)

endnote · 2022 年10 月 18 日 02:19

开源的Meld可以自定义正则表达式pass掉部分内容再开始比较，这一点不错。

如果要实现“直接两本epub进去一本对齐的epub出来”，很多时候需要保留原来的html标签（中英文标签不一样），而目前mlbee可能还只能比较纯文本？如果能自定义正则表达式pass掉部分内容再开始对齐，这样就能保留使用原epub各自的css样式

mikeee · 2022 年10 月 18 日 03:43

想法挺好的。实现可能有一定难度——因为每一本epub里的html、css可能都不一样。而且结果只是双语版？不像115楼的 · 查泰莱夫人的情人1-3章（样本双语句对句弹注）ChatterleysLover.epub (910.2 KB) 可以在单语和双语之间跳动。

endnote · 2022 年10 月 18 日 03:53

用正则<.*?>就可以pass掉所有 html 标签，再对齐。但对齐得到一一对应关系后，还是沿用原来包含标签的文本。

如果要把一中一英的文本合并到一个html 文件中制作切换版（不一定非得是弹注，可以有个浮动按钮进行切换，类似双解切换mdx），则可以把原来的两个css都包括进来。（有些细节还需考虑，比如中英文相同的标签名tag、但样式设定不同，则标签需要区分cn_tag/en_tag）

RANP0 · 2022 年10 月 18 日 18:44

我觉得可以弄得简单一点，改一下输出方式就好了
ptextpad目前的输出是

source  target  0.xx

改成这样输出

<p class="en">source</p>
<p class="zh">target</p>

这样一来输出的就直接是一个html，加上必要的头尾，就能加到书里了。

另外，输入html时最好去掉a标签这样的内容。
a标签通常是一些注释，混在双语里很难还原。
除了标题和段落，都去掉比较省心。
然后如果担心误伤，可以加个选项选择要不要去掉。

当然我没考虑双解切换之类的，要搞成切换应该也只要再加一个处理步骤而已。

mikeee · 2022 年10 月 19 日 05:55

直接处理 epub 的 html 文件倒是个不错的想法。我对epub格式不太了解。我做双语epub书都是基于 txt 文本，用了 EbookLib · PyPI 这个包。解压epub修改后再打包要看看用编程批量处理的可能性。基本上用 mlbee 直接对齐 html 是不太可行的。所以感觉会有很多边界情况要考虑。

mikeee · 2022 年12 月 24 日 11:19

ptextpad-electron Windows 64位安装包（测试版v0.0.3-0，但基本可以用了）

安装包高速下载 FreeMdict Cloud

Github repo GitHub - ffreemt/ptextpad-electron: A parallel text editor using electron

ptextpad-electron平行文本编辑器

中英自动对齐
- 超快，对齐一本书（例如《北京折叠》秒内~几秒完成）
内置 in-cell 文本编辑器
可导出对齐后 csv 格式文本

surfactant · 2022 年12 月 25 日 04:55

我几次想尝试你这个工具，都觉得有点麻烦就算了。

我感觉GUI在这里的意义不是很大，如果我来写我就用 python，运行后跳出

第一个提问框：英文text文件的地址(或文件夹)
第二个提问框：中文text文件的地址(或文件夹)
第三个提问框：输出csv文件的地址(或文件夹)

后续对csv的手动修正在 EmEditor中很方便

sxingbai · 2022 年12 月 25 日 05:01

出双语epub确实很需要，但还是先文本化、去除标签，然后对齐打包更可行

surfactant · 2022 年12 月 25 日 05:14

读小说学英语一般在移动设备上进行效率高，但是移动版epub阅读器似乎没有（？）支持双栏表格的，我以前是做成pdf在ipad上看，可以用Word的VBA脚本自动格式化然后打印成PDF，很久以前的事情了。后来还做过双栏格式放在印象笔记中看的，证明还是pdf要好一点，而且ipad上的不少pdf阅读器都做的非常好，文件同步标注查找目录比PC上都更方便。

在Word中把中英文排成双栏，写一个用于快速修订的宏，用半自动的方式逐行过一遍修正一下，一般中文译本的分段和原文差不会太多，工作量还可以承受，而且要看的小说也就那么几本，多也看不完。

mikeee · 2022 年12 月 26 日 03:29

你说的这个其实已经有了，可以导出 xlsx，csv格式，但没打成安装包或绿色包。你有python环境的话可以试试：

pip install ezbee

然后 ezbee --help (或 python -m ezbee)看使用方法

surfactant · 2022 年12 月 26 日 03:58

哦原来已经有了，那是我多虑了，谢谢！

mikeee · 2022 年12 月 26 日 04:08

我看了一下 ·emeditor· 编辑csv/tsv文件, 好像比较费劲，不太方便。ptextpad其实是想实现一些快键操作给自动对齐后手动微调修改用，例如上移一个表格（例如 ctrl-U），下移、分拆、合并，删除等等。electron里上移、下移应该是可以实现的，分拆、合并极有可能有一定难度。

surfactant · 2022 年12 月 26 日 04:19

我以为象插入一个空格这样的活emeditor能干，居然不行，高估它了。

以前在 Word中写过这中修订表格错位的vba宏，如果我做还是宁愿在emeditor中写几个宏，应该不算复杂

zambast · 2024 年3 月 5 日 15:24

我想提一个奇怪的需求：英英对齐。目的是对Whisper的字幕进行修正。
比方说我现在用Whisper/Whisperx对一本audiobook生成了字幕，虽然Whisper的准确率已经相当可以，毕竟还是有错误。然后我手头又有这本audiobook对应的epub，于是就想用epub对Whisper的字幕进行修正。按理说楼主的对齐工具就能用，不过我试了试不行，大概是因为目前没有针对英英对齐进行设定。不知道楼主是否能考虑一下。按理说应该更为简单，毕竟Whisper生成的字幕99%是准确的，差别主要在于标点符号（基本上会丢失引号）、专有名词等。
最理想的状态是上传srt和epub，自动生成校正后的srt（即，用epub中对应的文本替换srt中的字幕）。退一步可以分别上传srt转换出来的txt和epub转换出来的txt，对齐后再手动贴回去。

mikeee · 2024 年3 月 12 日 08:32

按道理 mlbee 做英英对齐是没有问题的，对齐算法本身并没有限制两个语言必须不同。方便的话传个样本我来试试。