我想获取所有用 python 说出的单词的时间戳,并使用 python 从音频和视频文件中静音或发出特定的声音。如果有人知道我如何使用 python3 实现此目的。
我试过pydub,SpeechRecognition,可惜没能达到目的。