这个我觉得挺有必要的。而且貌似也不难,可以列出来并提取词组。 红线的词组的标签是"mw_spm_phrase",蓝线的变形词的标签是class="mw_spm_it"。后者内部一般只有一个单词,前者内部单词多于一个。 第一个红线与第二个红线的标签虽然都是"mw_spm_phrase",但其上位的标签不同。第一个红线例句里头的词组是在<div class="sblocks">里头的。当然最后需要全文查找手工校对一次。
"mw_spm_phrase"
class="mw_spm_it"
<div class="sblocks">