Google Dataprep:将GCS文件名保存为列之一

问题描述 投票:0回答:1

我配置了Dataprep流程。数据集是GCS文件夹(来自它的所有文件)。 Target是BigQuery表。

由于数据来自多个文件,我希望在结果数据中包含文件名。

那可能吗?

google-cloud-platform google-cloud-storage google-cloud-dataprep
1个回答
1
投票

更新:现在有一个名为$ filepath的源元数据引用 - 正如您所料,它将存储在云存储中的文件的本地路径(从顶级存储桶开始)。您可以在公式中使用它或将其添加到新的公式列,然后在其他配方步骤中执行任何操作。 (如果您的数据源示例是在此功能之前创建的,则需要生成新的示例以便在界面中查看它)

有关这些元数据字段的完整说明,请访问:https://cloud.google.com/dataprep/docs/html/Source-Metadata-References_136155148


原始答案

目前无法开箱即用。如果您手动将数据集与UNION合并,则可以先处理它们以添加包含源的列,以便它随后出现在组合输出中。

如果您正在批量提取文件,这没有帮助 - 但是有一个打开的功能请求打开,您可以评论和/或关注更新:https://issuetracker.google.com/issues/74386476

© www.soinside.com 2019 - 2024. All rights reserved.