如何根据云数据流python sdk中的列值拆分csv文件

问题描述 投票:0回答:1

我想使用ReadFromText从GCS读取csv文件,并希望根据列值拆分成多个文件。

See sample data below 
Col1    Col2    Col3
Value1  data    date
value2  data    date_1
Value3  data    date_2
Value4  data    date_3
Value5  data    date

我想创建一个文件夹,即date,date_1..3和带有日期对应数据的文件名前缀应加载到文件中。

python google-cloud-dataflow apache-beam
1个回答
0
投票

处理每个元素以生成KV,其中,键成为有关您希望值降落的位置的元数据。然后看用dynamic destinations写出文件。

将密钥与FileIO一起使用的示例是in this answer on SO

© www.soinside.com 2019 - 2024. All rights reserved.