在Spark中读取/分析大小约为1TB的Json文件

问题描述 投票:0回答:2

我想在具有14个节点和39个核心(Azure HDInsight / Spark)的群集中分析大数据(解压缩后为0.9 TB)。但这很慢。这是我的工作:

  1. 数据从here下载。

  2. val data = spark.read.json(path) ----崩溃。数据存储在HDFS中。

  3. [val rdd = sc.textFile(path) ...然后rdd.count() ....也崩溃

  4. rdd.take(10),...没关系

  5. 无法解压缩文件;我用data.json.gz阅读]]

  6. 有任何建议吗?如何使用json阅读器阅读?

谢谢

我想在具有14个节点和39个核心(Azure HDInsight / Spark)的群集中分析大数据(解压缩后为0.9 TB)。但这很慢。我在这里做什么:数据是从这里下载的。 val数据...

json scala apache-spark bigdata data-analysis
2个回答
0
投票

您可以通过提供手动模式尝试将其全部加载为字符串,这将简化处理。


0
投票

您在解压缩后提到了大小,但也说了“无法解压缩文件”。如果您正在从HDFS读取压缩文件,则整个文件将被拉入内存,因为无法拆分。这可能是导致OOMEs的原因。

© www.soinside.com 2019 - 2024. All rights reserved.