再请教A兄:
制作mdx或epub碰到UTF-8编码是6位的生僻字,我通常用𥎊编码的方式,这样文本编辑过程中复制粘贴删除等不容易出错。
为了提取字体子集,用脚本把文本中所有的𥎊这样的编码都提取了出来,每个一行,删除重复。得到的清单类似:
characters.zip (258 字节)
但这个清单还无法直接用pyftsubset处理。不知道有啥好办法?
我把txt文件改为html后缀在浏览器中打开、然后再复制到VScode等文本编辑器中。但总有一些字符出问题。
比如清单中有两个字符的UTF编码分别为2EBC、2EA9,用⺼
⺩
在html文件中显示并复制后,在某些文本编辑器中无法粘贴,很奇怪。