我配置了Dataprep流程。数据集是GCS文件夹(来自它的所有文件)。 Target是BigQuery表。
由于数据来自多个文件,我希望在结果数据中包含文件名。
那可能吗?
更新:现在有一个名为$ filepath的源元数据引用 - 正如您所料,它将存储在云存储中的文件的本地路径(从顶级存储桶开始)。您可以在公式中使用它或将其添加到新的公式列,然后在其他配方步骤中执行任何操作。 (如果您的数据源示例是在此功能之前创建的,则需要生成新的示例以便在界面中查看它)
有关这些元数据字段的完整说明,请访问:https://cloud.google.com/dataprep/docs/html/Source-Metadata-References_136155148
原始答案
目前无法开箱即用。如果您手动将数据集与UNION
合并,则可以先处理它们以添加包含源的列,以便它随后出现在组合输出中。
如果您正在批量提取文件,这没有帮助 - 但是有一个打开的功能请求打开,您可以评论和/或关注更新:https://issuetracker.google.com/issues/74386476