我正在尝试了解扩散模型(如稳定扩散)是如何工作的。
据我了解,开始和结束有一个分离的自动编码器,中间有一个降噪网络。编码后,图像的潜在表示是 64x64,例如他们使用 CLIP 生成 77x768 的词嵌入。
这些不同形状的阵列如何连接到这些网络中?