我正在为我的ML项目使用谷歌云数据库。我的一个数据是在bigquery表中,它有数百万条包含许多列的记录(文本数据)。我从bigquery表创建了一个pandas数据帧,将其转换为dask数据帧(具有5个分区)并执行数据争用。
现在我有这个dask数据框,我想将它存储在bigquery中或将其转换为镶木地板文件并将它们存储在我的gcp存储中。听取社区的选择会很棒。谢谢。
正如评论所提到的,这太过于“我怎么......”的问题。
但是,简单的答案是
df.to_parquet('gcs://mybucket/mypath/output.parquet')
您将需要安装一个镶木地板后端(fastparquet或pyarrow)和gcsfs。可能需要gcsfs的其他参数才能获得正确的权限,使用关键字storage_options={...}
,请参阅gcsfs文档。
一般信息:http://docs.dask.org/en/latest/remote-data-services.html