训练歌声合成神经网络推荐的梅尔频谱归一化技术是什么?我的配置设置是
n_fft= 2048, hop_length= 512, n_mels = 80
我已经使用下面的代码(取自 whisper repo)实现了规范化,但它并没有产生令人满意的结果。
log_spec = torch.clamp(mel_spec, min=1e-10).log10()
log_spec = torch.maximum(log_spec, log_spec.max() - 8.0)
log_spec = (log_spec + 4.0) / 4.0
我预计范围在 0 和 1 之间,但它没有生成在 0 和 1 之间。请建议一些合适的梅尔频谱归一化技术。