用户自定义语料库/网络语料库及其检索和生成例句问题

我们现在使用的词典的语料库都是词典自带的例句。如果用户导入文本(例如电子书)或者采用网络上的优质文本(例如“维基文库”)作为语料库的例句来源。这个功能又该如何实现呢?
问题一:用户导入语料库的形式包括:
1.文本(TXT/HTML/DOCX/EPUB/AZW3/MOBI/DJ等)
2.PDF、Jep图等,通过OCR工具自动转化为文本
3.MP3、MP4通过语音识别技术转化成文本

问题二:导入文本后的断句和分段问题
有标点符号的句号为一句,一个自然段为一段。
语音和视频文件,按停顿时间长短划分句子和段落

问题三:检索后如何排序
首先根据搜索,检索出所有包含这个单词的句子
可以每句话原始加权100,然后用户每次点赞加1分、点踩减1分。
根据所有句子出现的概率随机的抽取

问题四:播放效果。
有MP3和MP4的,用户点击时播放音频文件
没有MP3和MP4的采用Azure natural TTS播放

1 Like
   每一步都容易实现 而且有大量的相关软件,开发综合起来集众多功能于一起的软件估计很难实现,因为涉及到的技术众多:有文字识别、语音识别、对齐、索引检索等!

目前即使你有大量的对齐语料库,拥有各种词表,也没有一个软件可以通过词表索引生成mdx格式的句库,我想,这个思路和技术手段都不难实现,所以,设计开发后者更为可行、更有意义!
目前词典软件一大把,语料库软件一大把,就缺把语料库和词典打通的软件,所以,同志们,这才应该是大家努力的方向!

:joy: 我觉得楼主是在调查用户需求并打算自己写一个这样的全能软件了。当然,GoldenDict是源码开放的,也可以fork了在上面修改。

我不懂编程啊?需要学习哪些基础知识?

2 Likes

语料库软件有哪些啊

anteconc, wordsmith tools, word smart, 等。

1 Like