为什么无论使用或不使用 Wav2Vec2Processor，我都会得到相同的结果？

问题描述投票：0回答：0

我正在短时间内运行简单的 wav2vec2 代码，没有噪音：

#processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
model     = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")     

FILE_NAME        = "tutorial-assets/Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.wav"
SPEECH_FILE      = download_asset(FILE_NAME)

speech, sr       = librosa.load(SPEECH_FILE, sr=16000)

speech           = torch.tensor(speech)
speech           = speech.reshape(1, -1)

logits           = model(speech).logits

predicted_ids    = torch.argmax(logits, dim=-1)
transcription    = processor.decode(predicted_ids[0])
transcription

结果：

'I HAD THAT CURIOSITY BESIDE ME AT THIS MOMENT'

如你所见，我没有使用
```
processor
```
.
网上的例子总是用
```
processor
```

所以：

使用处理器有什么好处？
我们什么时候需要使用它？

deep-learning

huggingface-tokenizers

huggingface

为什么无论使用或不使用 Wav2Vec2Processor，我都会得到相同的结果？

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0