在Spark中读取/分析大小约为1TB的Json文件

问题描述投票：0回答：2

我想在具有14个节点和39个核心（Azure HDInsight / Spark）的群集中分析大数据（解压缩后为0.9 TB）。但这很慢。这是我的工作：

数据从here下载。
val data = spark.read.json(path) ----崩溃。数据存储在HDFS中。
[val rdd = sc.textFile(path) ...然后rdd.count() ....也崩溃
rdd.take(10)，...没关系
无法解压缩文件；我用data.json.gz阅读]]

有任何建议吗？如何使用json阅读器阅读？

谢谢

我想在具有14个节点和39个核心（Azure HDInsight / Spark）的群集中分析大数据（解压缩后为0.9 TB）。但这很慢。我在这里做什么：数据是从这里下载的。 val数据...

json scala apache-spark bigdata data-analysis

2个回答

0
投票

您可以通过提供手动模式尝试将其全部加载为字符串，这将简化处理。

0
投票

您在解压缩后提到了大小，但也说了“无法解压缩文件”。如果您正在从HDFS读取压缩文件，则整个文件将被拉入内存，因为无法拆分。这可能是导致OOMEs的原因。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.