就是ptextpad。
我在处理~/Desktop路径下的东西,导出paras时,会崩溃。生成了~/Desktop\aligned\
, ~/aligned\aligned\
这样的文件夹,应该是哪句代码有问题,希望能修一下这个。
不过抛开这些小问题来说,程序还是能用的,合并完html,还需要手工处理一下生成的文件,再加到到epub里。
这个应该是老版遗留的问题,可能是 Path(“~/aligned”).expanduser() 没处理好,搜一下 expanduser 试试。下一版会修一下。
哦,ptextpad 少人用,其实有个绿色包 ptextpad 0.1.0a6 | Bumblebee 还有个 readme, 或许有点用。有兴趣的话可以加 qq群 316287378 实时交流。
附上ptextpad-1-0a6的readme.pdf
ptextpad-readme.pdf (192.6 KB)
开源的Meld可以自定义正则表达式pass掉部分内容再开始比较,这一点不错。
如果要实现“直接两本epub进去一本对齐的epub出来”,很多时候需要保留原来的html标签(中英文标签不一样),而目前mlbee可能还只能比较纯文本?如果能自定义正则表达式pass掉部分内容再开始对齐,这样就能保留使用原epub各自的css样式
想法挺好的。实现可能有一定难度——因为每一本epub里的html、css可能都不一样。而且结果只是双语版?不像115楼的 · 查泰莱夫人的情人1-3章(样本 双语句对句弹注)ChatterleysLover.epub (910.2 KB) 可以在单语和双语之间跳动。
用正则<.*?>
就可以pass掉所有 html 标签,再对齐。但对齐得到一一对应关系后,还是沿用原来包含标签的文本。
如果要把一中一英的文本合并到一个html 文件中制作切换版(不一定非得是弹注,可以有个浮动按钮进行切换,类似双解切换mdx),则可以把原来的两个css都包括进来。(有些细节还需考虑,比如中英文相同的标签名tag、但样式设定不同,则标签需要区分cn_tag/en_tag)
我觉得可以弄得简单一点,改一下输出方式就好了
ptextpad目前的输出是
source target 0.xx
改成这样输出
<p class="en">source</p>
<p class="zh">target</p>
这样一来输出的就直接是一个html,加上必要的头尾,就能加到书里了。
另外,输入html时最好去掉a标签这样的内容。
a标签通常是一些注释,混在双语里很难还原。
除了标题和段落,都去掉比较省心。
然后如果担心误伤,可以加个选项选择要不要去掉。
当然我没考虑双解切换之类的,要搞成切换应该也只要再加一个处理步骤而已。
直接处理 epub 的 html 文件倒是个不错的想法。我对epub格式不太了解。我做双语epub书都是基于 txt 文本,用了 EbookLib · PyPI 这个包。解压epub修改后再打包要看看用编程批量处理的可能性。基本上用 mlbee 直接对齐 html 是不太可行的。所以感觉会有很多边界情况要考虑。
ptextpad-electron Windows 64位安装包(测试版v0.0.3-0,但基本可以用了)
安装包高速下载 FreeMdict Cloud
Github repo GitHub - ffreemt/ptextpad-electron: A parallel text editor using electron
ptextpad-electron平行文本编辑器
- 中英自动对齐
- 超快,对齐一本书(例如《北京折叠》秒内~几秒完成)
- 内置 in-cell 文本编辑器
- 可导出对齐后 csv 格式文本
我几次想尝试你这个工具,都觉得有点麻烦就算了。
我感觉GUI在这里的意义不是很大,如果我来写我就用 python,运行后跳出
- 第一个提问框:英文text文件的地址(或文件夹)
- 第二个提问框:中文text文件的地址(或文件夹)
- 第三个提问框:输出csv文件的地址(或文件夹)
后续对csv的手动修正在 EmEditor中很方便
出双语epub确实很需要,但还是先文本化、去除标签,然后对齐打包更可行
读小说学英语一般在移动设备上进行效率高,但是移动版epub阅读器似乎没有(?)支持双栏表格的,我以前是做成pdf在ipad上看,可以用Word的VBA脚本自动格式化然后打印成PDF,很久以前的事情了。后来还做过双栏格式放在印象笔记中看的,证明还是pdf要好一点,而且ipad上的不少pdf阅读器都做的非常好,文件同步标注查找目录比PC上都更方便。
在Word中把中英文排成双栏,写一个用于快速修订的宏,用半自动的方式逐行过一遍修正一下,一般中文译本的分段和原文差不会太多,工作量还可以承受,而且要看的小说也就那么几本,多也看不完。
你说的这个其实已经有了,可以导出 xlsx,csv格式,但没打成安装包或绿色包。你有python环境的话可以试试:
pip install ezbee
然后 ezbee --help
(或 python -m ezbee
)看使用方法
哦原来已经有了,那是我多虑了,谢谢!
我看了一下 ·emeditor· 编辑csv/tsv文件, 好像比较费劲,不太方便。ptextpad
其实是想实现一些快键操作给自动对齐后手动微调修改用,例如上移一个表格(例如 ctrl-U),下移、分拆、合并,删除等等。electron里上移、下移应该是可以实现的,分拆、合并极有可能有一定难度。
我以为象插入一个空格这样的活emeditor能干,居然不行,高估它了。
以前在 Word中写过这中修订表格错位的vba宏,如果我做还是宁愿在emeditor中写几个宏,应该不算复杂
我想提一个奇怪的需求:英英对齐。目的是对Whisper的字幕进行修正。
比方说我现在用Whisper/Whisperx对一本audiobook生成了字幕,虽然Whisper的准确率已经相当可以,毕竟还是有错误。然后我手头又有这本audiobook对应的epub,于是就想用epub对Whisper的字幕进行修正。按理说楼主的对齐工具就能用,不过我试了试不行,大概是因为目前没有针对英英对齐进行设定。不知道楼主是否能考虑一下。按理说应该更为简单,毕竟Whisper生成的字幕99%是准确的,差别主要在于标点符号(基本上会丢失引号)、专有名词等。
最理想的状态是上传srt和epub,自动生成校正后的srt(即,用epub中对应的文本替换srt中的字幕)。退一步可以分别上传srt转换出来的txt和epub转换出来的txt,对齐后再手动贴回去。
按道理 mlbee 做英英对齐是没有问题的,对齐算法本身并没有限制两个语言必须不同。方便的话传个样本我来试试。
很久之前在论坛就留意到这个帖子,一直想尝试使用一下,今天终于找到机会
整体上来说效果是非常好的
有一个一般使用不会遇到的问题是:我的英文文本在一些不必要的地方有换行
手动给每段去掉换行并打开分句之后就是现在这样的效果
目前看起来还有一些问题:
不知道应该说是分句的问题还是一对多的问题,分号没有被作为断句的符号看待
我有一个设想:出现没有对应句的情况的时候,是否可以拿这一句和上/下句合并,然后计算新句子和上/下句的对应句对齐的置信率,然后选择置信率上升的那一句合并作为结果
我觉得以后是不是可以用AI来做这些,目前的商用大模型其实不适合,一方面收费高,另一方面输出长度有限制。但是现在有不少开源的小模型,其实我估计简单的文本处理这些小模型已经足够了。需要有人做一些落地的工作,调教出各种专用的工具来。
其实这方面的需求挺多的,比如用AI进行OCR校对。比如用AI对整本小说进行分析,自动标记不同人物不同感情,然后结合TTS生成按角色朗读的audiobook。
然而现在开源模型大多在做通用AI,这些落地工作很少有人做。