Amazon polly提供带有文字的语音标记。
https://docs.aws.amazon.com/polly/latest/dg/using-speechmarks.html
说
start –输入文本(不包括视位符号)中对象开始的偏移量(以字节为单位)(不包括字符)
如何将这个“开始”及时转换为开始位置,以便例如使用Unity从那里开始读取?
time
time –从相应音频流开始的时间戳,以毫秒为单位