PySpark:处理100000列数据集

问题描述 投票:1回答:1

我正在使用Cloudera Spark 2.我们在集群中实现了Kerberos。

我有一个400000x100000的CSV数据集。它有500GB。我做了以下事情:

  • df = spark.read.csv('largefile.csv',header=Ture,maxCoulmns=100000)
  • print(df.count())并保存在spark_test.py中
  • 在终端spark2-submit --master yarn --deploy-mode cluster spark_test.py

火花作业正在运行,我能够在Spark UI中跟踪它并且它在30分钟左右失败后继续运行。


出于测试目的,我使用10列数据集尝试了上述步骤,并且成功完成了作业。


是否有任何限制或配置来增加Spark进程的列?

csv apache-spark pyspark kerberos large-files
1个回答
1
投票

很可能您的Kerberos票证已过期。

在调用principal时尝试指定keytabspark2-submit

spark2-submit --keytab=/local/path/to/file.keytab --principal=user@domain \
              --master yarn --deploy-mode cluster spark_test.py
© www.soinside.com 2019 - 2024. All rights reserved.