Dataprep将具有不同列数的文件导入数据集

问题描述 投票:1回答:1

我正在尝试创建一个参数化数据集,该数据集从GCS导入文件并将它们放在彼此之下。一切正常(导入数据>参数化)。

为了给出一些上下文,我每天都会存储一个.csv文件,该文件使用不同的名称来引用该日期。

现在,我的提供商自上个月以来在文件中添加了一个新列。这意味着此日期之前的文件有8列,而从此日期开始有9列。

但是,当我参数化时,Dataprep仅考虑匹配的列(因此仅限8列)。理想情况下,我希望对来自没有此新列的文件的行进行空观察。

怎么能实现这一目标?

google-cloud-platform google-cloud-dataprep
1个回答
3
投票

参数化数据集仅适用于documentation中提到的固定模式:

避免使用参数创建数据集,其中单个文件或表具有不同的模式。

使用在使用参数创建数据集期间找到的文件之一生成此固定模式。

如果架构已更改,则可以通过使用参数编辑数据集并单击“保存”来“刷新”它。如果所有匹配的文件包含9列,您现在应该在变换器中看到9列。

© www.soinside.com 2019 - 2024. All rights reserved.