如何将dask数据帧写入谷歌云存储或Bigquery

Question

我正在为我的ML项目使用谷歌云数据库。我的一个数据是在bigquery表中，它有数百万条包含许多列的记录（文本数据）。我从bigquery表创建了一个pandas数据帧，将其转换为dask数据帧（具有5个分区）并执行数据争用。

现在我有这个dask数据框，我想将它存储在bigquery中或将其转换为镶木地板文件并将它们存储在我的gcp存储中。听取社区的选择会很棒。谢谢。

Answer 1

正如评论所提到的，这太过于“我怎么......”的问题。

但是，简单的答案是

df.to_parquet('gcs://mybucket/mypath/output.parquet')

您将需要安装一个镶木地板后端（fastparquet或pyarrow）和gcsfs。可能需要gcsfs的其他参数才能获得正确的权限，使用关键字storage_options={...}，请参阅gcsfs文档。