数据交换如何与谷歌云存储配合使用?

问题描述 投票:2回答:1

我正在寻找谷歌数据交换机与GCS的工作。我正在使用dataproc的pyspark。数据是从GCS读取和写入的。但是无法为我的用例找出最佳的机器类型。问题

1)dataproc上的spark是否将数据复制到本地磁盘?例如如果我正在处理2 TB数据,是否可以如果我使用4机器节点和200GB硬盘?或者我应该至少提供可以保存输入数据的磁盘?

2)如果根本没有使用本地磁盘那么可以使用高内存低磁盘实例吗?

3)如果使用本地磁盘,那么哪种实例类型适合处理具有最小可能节点数的2 TB数据?我的意思是使用SSD好吗?

谢谢

马尼什

apache-spark pyspark google-cloud-dataproc
1个回答
2
投票

Spark会将数据直接读入内存和/或磁盘,具体取决于您是使用RDD还是DataFrame。您应该至少有足够的磁盘来容纳所有数据。如果您正在执行连接,那么必要的磁盘数量会增加以处理随机溢出。

如果您通过过滤丢弃大量数据,则此等式会发生变化。

无论您使用pd-standard,pd-ssd还是local-ssd都归结为成本,以及您的应用程序是CPU还是IO绑定。

磁盘IOPS与磁盘大小成正比,因此非常小的磁盘是不可取的。请记住,磁盘(相对于CPU)很便宜。

对于网络IO也有相同的建议:更多CPU =更多带宽。

最后,默认的Dataproc设置是开始试验和调整设置的合理位置。

资料来源:https://cloud.google.com/compute/docs/disks/performance

© www.soinside.com 2019 - 2024. All rights reserved.