PySpark：处理100000列数据集

Question

我正在使用Cloudera Spark 2.我们在集群中实现了Kerberos。

我有一个400000x100000的CSV数据集。它有500GB。我做了以下事情：

火花作业正在运行，我能够在Spark UI中跟踪它并且它在30分钟左右失败后继续运行。

出于测试目的，我使用10列数据集尝试了上述步骤，并且成功完成了作业。

是否有任何限制或配置来增加Spark进程的列？

Answer 1

很可能您的Kerberos票证已过期。

在调用principal时尝试指定keytab和spark2-submit：

spark2-submit --keytab=/local/path/to/file.keytab --principal=user@domain \
              --master yarn --deploy-mode cluster spark_test.py