转发:牛津高阶双解第四版光盘数据简单分析和提取

你这个替换表和金山音标字体实际情况不符,我自己挨个将字体对照Unicode输入的如下,希望对大家替换音标有帮助:

def replace_phonetic_symbols(text):
    return (text.replace('1', '…')
				.replace('4', '։')
				.replace('5', 'ˈ')
				.replace('6', '!')
                .replace('7', 'ˌ')
                .replace('8', '?')
				#.replace('9', 'ʻ')
                .replace(':', 'ː')
                .replace('<', 'ü')
                .replace('=', 'ê')
                .replace('?', '𝑈')
                .replace('@', '𝑆')
                .replace('A', 'æ')
                .replace('B', 'ɑ')
                .replace('C', 'ɔ')
                .replace('D', 'ã')
                .replace('E', 'ə')
                .replace('F', 'ʃ')
                .replace('G', 'ɣ')
                .replace('H', 'ɥ')
                .replace('I', 'ɪ')
                .replace('J', 'ʊ')
                .replace('K', 'ʏ')
                .replace('L', 'ɚ')
                .replace('M', 'ɲ')
                .replace('N', 'ŋ')
                .replace('O', 'ɶ')
                .replace('P', 'ɵ')
                .replace('Q', 'ʌ')
                .replace('R', 'ɔ')
                .replace('S', 'ɔ̃')
                .replace('T', 'ð')
                .replace('U', 'u')
                .replace('V', 'ʒ')
                .replace('W', 'θ')
                .replace('X', 'ø')
                .replace('Y', 'ɛ̃')
                .replace('Z', 'ɛ')
                .replace('[', 'ə')
                .replace('\\', 'ɜ')
                .replace(']', 'ç')
                .replace('^', 'ɡ')
                .replace('_', '̌')
                .replace('`', '̀')
                .replace('{', '─')
                .replace('|', '╎')
                .replace('}', '╲')
				.replace('', 'ā')
				.replace('‚', 'á')
				.replace('ƒ', 'ǎ')
				.replace('„', 'à')
				.replace('…', 'ē')
				.replace('†', 'é')
				.replace('‡', 'ě')
				.replace('ˆ', 'è')
				.replace('‰', 'ī')
				.replace('Š', 'í')
				.replace('‹', 'ǐ')
				.replace('Œ', 'ì')
				.replace('', 'ō')
				.replace('Ž', 'ó')
				.replace('', 'ǒ')
				.replace('', 'ò')
				.replace('‘', 'ū')
				.replace('’', 'ú')
				.replace('“', 'ǔ')
				.replace('”', 'ù')
				.replace('•', 'ǖ')
				.replace('–', 'ǘ')
				.replace('—', 'ǚ')
				.replace('˜', 'ǜ')
				.replace('™', 'm̄')
				.replace('š', 'ḿ')
				.replace('›', 'm̌')
				.replace('œ', 'm̀')
				.replace('', 'n̄')
				.replace('ž', 'ń')
				.replace('Ÿ', 'ň')
				.replace(' ', 'ǹ'))