扩散模型文本编码串联维度

问题描述投票：0回答：0

我正在尝试了解扩散模型（如稳定扩散）是如何工作的。

据我了解，开始和结束有一个分离的自动编码器，中间有一个降噪网络。编码后，图像的潜在表示是 64x64，例如他们使用 CLIP 生成 77x768 的词嵌入。

这些不同形状的阵列如何连接到这些网络中？

python keras deep-learning stable-diffusion

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.