Rdd、Dataframe 和 Dataset,对于不同的数据大小使用哪个?

问题描述 投票:0回答:1

Pyspark:如果有10万、100万、300万条记录。您将使用什么 Dataframe/rdd/dataset 以及为什么?只需详细说明 10 万卡,您将类似地使用 100 万卡和 300 万卡

寻找完美答案。没有具体场景

dataframe pyspark dataset rdd
1个回答
0
投票

默认且最佳的选择是使用Dataframes

Dataframes 是高级 API,Spark 自动优化它们并生成 RDD。

Python 和 Scala 都支持数据帧。

RDD是低级API,数据工程师通常发现它们很难优化。使用 Dataframes 将帮助您轻松地将代码迁移到任何其他云平台,例如 Databricks。

数据集不太常用,因为它们在 Python 中不受支持,因为它们是类型化 API,只能在 Scala 项目中使用。

希望这有帮助。

© www.soinside.com 2019 - 2024. All rights reserved.