详细说明:
cluster.properies
的属性文件,并包含spark\:spark.executor.memory=2688m
等值。所以,我想知道Dataproc是否会自动以最佳方式填充这些值w.r.t.群集资源,在这种情况下,我们不必手动/编程调整这些火花配置?Dataproc确实提供了基于机器类型(甚至是自定义机器类型)和集群形状的智能默认值,这些默认值旨在成为最佳“一刀切”设置,以平衡每个JVM的更多线程的效率与共享资源池的限制每个JVM;粗略地说,机器被分割出来以适应每台机器的2个执行器,并且每个执行器被给予半个机器的线程(因此你希望2个执行器能够在n1-standard-8上并行运行4个任务,例如)。
请记住,YARN对于incorrectly report vcores for multi-threaded Spark executors是众所周知的,所以在Dataproc上运行一个大的Spark工作时,你可能只看到两个YARN“vcores”,但你可以通过查看Spark AppMaster页面来验证所有核心是否确实被使用,运行ps
工作者,或在Dataproc云控制台页面上查看CPU使用情况。
但是,这些类型的设置从不普遍100%“最佳”,Dataproc尚未根据您运行的实际工作负载或历史工作负载自动预测设置。因此,纯粹基于群集形状的任何设置对于在该群集上运行的所有工作负载而言都不是100%最佳。
简而言之,在Dataproc上你不应该担心在大多数情况下显式优化,除非你试图真正挤出每一盎司的效率,但同时你可以随时用你自己的方式覆盖Dataproc的设置如果需要,可以在创建群集或作业提交时使用属性。需要考虑以下几点:
答案是肯定的。它取决于您的spark应用程序的行为,您运行的vm数以及您使用的vm类型。以下是我的示例调整参数。
default_parallelism=512
PROPERTIES="\
spark:spark.executor.cores=2,\
spark:spark.executor.memory=8g,\
spark:spark.executor.memoryOverhead=2g,\
spark:spark.driver.memory=6g,\
spark:spark.driver.maxResultSize=6g,\
spark:spark.kryoserializer.buffer=128m,\
spark:spark.kryoserializer.buffer.max=1024m,\
spark:spark.serializer=org.apache.spark.serializer.KryoSerializer,\
spark:spark.default.parallelism=${default_parallelism},\
spark:spark.rdd.compress=true,\
spark:spark.network.timeout=3600s,\
spark:spark.rpc.message.maxSize=256,\
spark:spark.io.compression.codec=snappy,\
spark:spark.shuffle.service.enabled=true,\
spark:spark.sql.shuffle.partitions=256,\
spark:spark.sql.files.ignoreCorruptFiles=true,\
yarn:yarn.nodemanager.resource.cpu-vcores=8,\
yarn:yarn.scheduler.minimum-allocation-vcores=2,\
yarn:yarn.scheduler.maximum-allocation-vcores=4,\
yarn:yarn.nodemanager.vmem-check-enabled=false,\
capacity-scheduler:yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
"
gcloud dataproc clusters create ${GCS_CLUSTER} \
--scopes cloud-platform \
--image pyspark-with-conda-v2-365 \
--bucket spark-data \
--zone asia-east1-b \
--master-boot-disk-size 500GB \
--master-machine-type n1-highmem-2 \
--num-masters 1 \
--num-workers 2 \
--worker-machine-type n1-standard-8 \
--num-preemptible-workers 2 \
--preemptible-worker-boot-disk-size 500GB \
--properties ${PROPERTIES}