EfficientNetV2 系列模型的输入维度

Question

我对 EfficientNetV2 系列模型有疑问。如果我的理解是正确的，这个系列下有 6 个型号 - B0 到 B1 和 S 是相对较小的型号，而 M 和 L 是较大的型号。但是，我很难理解这些模型的预期输入尺寸（图像分辨率）。

在我的数据集中，图像大小为 400x400。我可以对图像进行卷积以减小尺寸，也可以添加零填充来增大尺寸，但我不确定模型的实际期望。

我一直在参考论文EfficientNetV2：更小的模型和更快的训练作为指导，但我可能会遗漏一些东西。如果有人可以提供一些见解或指导我找到正确的信息，我将不胜感激。

提前感谢您的帮助！干杯！

（编辑：在进一步研究问题时，我认为我们可以简单地在 tf.keras.preprocessing.image.ImageDataGenerator 函数中提供

target_size

并将输入图像的大小调整为给定的分辨率？但是，我仍然想得到答案如果可能的话，回答我原来的问题）