我正在使用Cloudera Spark 2.我们在集群中实现了Kerberos。
我有一个400000x100000的CSV数据集。它有500GB。我做了以下事情:
df = spark.read.csv('largefile.csv',header=Ture,maxCoulmns=100000)
print(df.count())
并保存在spark_test.py中spark2-submit --master yarn --deploy-mode cluster spark_test.py
火花作业正在运行,我能够在Spark UI中跟踪它并且它在30分钟左右失败后继续运行。
出于测试目的,我使用10列数据集尝试了上述步骤,并且成功完成了作业。
是否有任何限制或配置来增加Spark进程的列?
很可能您的Kerberos票证已过期。
在调用principal
时尝试指定keytab
和spark2-submit
:
spark2-submit --keytab=/local/path/to/file.keytab --principal=user@domain \
--master yarn --deploy-mode cluster spark_test.py