数据交换如何与谷歌云存储配合使用？

Question

我正在寻找谷歌数据交换机与GCS的工作。我正在使用dataproc的pyspark。数据是从GCS读取和写入的。但是无法为我的用例找出最佳的机器类型。问题

1）dataproc上的spark是否将数据复制到本地磁盘？例如如果我正在处理2 TB数据，是否可以如果我使用4机器节点和200GB硬盘？或者我应该至少提供可以保存输入数据的磁盘？

2）如果根本没有使用本地磁盘那么可以使用高内存低磁盘实例吗？

3）如果使用本地磁盘，那么哪种实例类型适合处理具有最小可能节点数的2 TB数据？我的意思是使用SSD好吗？

谢谢

马尼什

Answer 1

Spark会将数据直接读入内存和/或磁盘，具体取决于您是使用RDD还是DataFrame。您应该至少有足够的磁盘来容纳所有数据。如果您正在执行连接，那么必要的磁盘数量会增加以处理随机溢出。

如果您通过过滤丢弃大量数据，则此等式会发生变化。

无论您使用pd-standard，pd-ssd还是local-ssd都归结为成本，以及您的应用程序是CPU还是IO绑定。

磁盘IOPS与磁盘大小成正比，因此非常小的磁盘是不可取的。请记住，磁盘（相对于CPU）很便宜。

对于网络IO也有相同的建议：更多CPU =更多带宽。

最后，默认的Dataproc设置是开始试验和调整设置的合理位置。