扩散模型文本编码串联维度

问题描述 投票:0回答:0

我正在尝试了解扩散模型(如稳定扩散)是如何工作的。

据我了解,开始和结束有一个分离的自动编码器,中间有一个降噪网络。编码后,图像的潜在表示是 64x64,例如他们使用 CLIP 生成 77x768 的词嵌入。

这些不同形状的阵列如何连接到这些网络中?

python keras deep-learning stable-diffusion
© www.soinside.com 2019 - 2024. All rights reserved.