倒是没有报错,只是提取不完整。比如brace词条只提取了:
brace = brace<sup>1</sup>
第二个PHP版本,如果选UTF-8版本,也只提取了上面这种(不完整,3MB左右) 如果编码方式都选默认,看起来提取很完整(110多MB),但里面除了词头都是乱码。
选 UTF-8 编码的解析结果:
选 UTF-16LE编码的解析结果: