如何将dask数据帧写入谷歌云存储或Bigquery

问题描述 投票:0回答:1

我正在为我的ML项目使用谷歌云数据库。我的一个数据是在bigquery表中,它有数百万条包含许多列的记录(文本数据)。我从bigquery表创建了一个pandas数据帧,将其转换为dask数据帧(具有5个分区)并执行数据争用。

现在我有这个dask数据框,我想将它存储在bigquery中或将其转换为镶木地板文件并将它们存储在我的gcp存储中。听取社区的选择会很棒。谢谢。

python pandas google-bigquery dask google-cloud-datalab
1个回答
-1
投票

正如评论所提到的,这太过于“我怎么......”的问题。

但是,简单的答案是

df.to_parquet('gcs://mybucket/mypath/output.parquet')

您将需要安装一个镶木地板后端(fastparquet或pyarrow)和gcsfs。可能需要gcsfs的其他参数才能获得正确的权限,使用关键字storage_options={...},请参阅gcsfs文档。

一般信息:http://docs.dask.org/en/latest/remote-data-services.html

© www.soinside.com 2019 - 2024. All rights reserved.