我正在尝试创建一个参数化数据集,该数据集从GCS导入文件并将它们放在彼此之下。一切正常(导入数据>参数化)。
为了给出一些上下文,我每天都会存储一个.csv文件,该文件使用不同的名称来引用该日期。
现在,我的提供商自上个月以来在文件中添加了一个新列。这意味着此日期之前的文件有8列,而从此日期开始有9列。
但是,当我参数化时,Dataprep仅考虑匹配的列(因此仅限8列)。理想情况下,我希望对来自没有此新列的文件的行进行空观察。
怎么能实现这一目标?
参数化数据集仅适用于documentation中提到的固定模式:
避免使用参数创建数据集,其中单个文件或表具有不同的模式。
使用在使用参数创建数据集期间找到的文件之一生成此固定模式。
如果架构已更改,则可以通过使用参数编辑数据集并单击“保存”来“刷新”它。如果所有匹配的文件包含9列,您现在应该在变换器中看到9列。