Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

让大语言模型稳定输出格式规整的内容是很费劲的

感谢反馈。

分号分句其实是有个选项的,但还没有整合到mlbee。

”没有对应句的情况“没有进一步处理,原因是有些对齐个案的原文和译文确实存在无对应句,比如每章后的译注。

本来在开发一个专门用来快速编辑平行库的编辑器 ptextpad。但chatgpt以及大语言模型出来后,对平行库的需求可能大大减低了,就基本上停了下来。

2 Likes

我稍微研究了一下 NLTK,它的 tokenize 会切到 word 粒度,对这个需求来说过于碎了,这样的话可能要先判断句子成分再按句子成分进行切割。

坊间的 tokenizer 几乎都是分”字“, 例如“New York is a city”会被分成 [‘New’, ‘York’, ‘is’, ‘a’, ‘city’]。而要做词对齐的话应该分成 [‘New York’, ‘is’, ‘a city’]