带时间戳的语音转文本

我想获取所有用 python 说出的单词的时间戳，并使用 python 从音频和视频文件中静音或发出特定的声音。如果有人知道我如何使用 python3 实现此目的。

我试过pydub,SpeechRecognition，可惜没能达到目的。