我想在具有14个节点和39个核心(Azure HDInsight / Spark)的群集中分析大数据(解压缩后为0.9 TB)。但这很慢。这是我的工作:
数据从here下载。
val data = spark.read.json(path)
----崩溃。数据存储在HDFS中。
[val rdd = sc.textFile(path)
...然后rdd.count()
....也崩溃
rdd.take(10)
,...没关系
无法解压缩文件;我用data.json.gz阅读]]
有任何建议吗?如何使用json阅读器阅读?
谢谢
我想在具有14个节点和39个核心(Azure HDInsight / Spark)的群集中分析大数据(解压缩后为0.9 TB)。但这很慢。我在这里做什么:数据是从这里下载的。 val数据...
您可以通过提供手动模式尝试将其全部加载为字符串,这将简化处理。
您在解压缩后提到了大小,但也说了“无法解压缩文件”。如果您正在从HDFS读取压缩文件,则整个文件将被拉入内存,因为无法拆分。这可能是导致OOMEs的原因。