我的输出是:
['<s>', 'does', 'any', '<sil>', 'unable', 'to(3)', 'bear', 'the', 'senate', 'is', 'touching', 'emotion', 'turned', 'away', '<sil>', 'and(2)', 'ill', 'afford', '<sil>', 'without', 'seeking', 'any', 'further', 'explanation', '<sil>', 'and(2)', 'attracted', 'towards(2)', 'him', 'and', 'irresistible', 'magnetism', 'which', 'draws', 'us', 'towards(2)', 'those', 'who', 'have', 'loved', 'to(3)', 'people', 'for(2)', 'whom', 'we', 'mourn', '<sil>', 'extended', 'his', 'hand', 'towards(2)', 'the(2)', 'young', 'man', '</s>']
我知道<s>
和<sil>
的作用。但是to(3)
呢?
如果不检查将每个单词与其发音相关联的字典文件(通常使用扩展名.dict很难确定)。然后,您可以检查它与(假设是)to(2)
或to
有什么不同。
但是,由于许多具有相同拼写的单词具有不同的发音,因此惯例是考虑到具有不同单词的单词,如official tutorial中所述。
字典也可以包含其他发音。在这种情况下,您可以在括号中用数字指定它们:
TH IH