Rdd、Dataframe 和 Dataset，对于不同的数据大小使用哪个？

Question

Pyspark：如果有10万、100万、300万条记录。您将使用什么 Dataframe/rdd/dataset 以及为什么？只需详细说明 10 万卡，您将类似地使用 100 万卡和 300 万卡

寻找完美答案。没有具体场景

Answer 1

默认且最佳的选择是使用Dataframes。

Dataframes 是高级 API，Spark 自动优化它们并生成 RDD。

Python 和 Scala 都支持数据帧。

RDD是低级API，数据工程师通常发现它们很难优化。使用 Dataframes 将帮助您轻松地将代码迁移到任何其他云平台，例如 Databricks。

数据集不太常用，因为它们在 Python 中不受支持，因为它们是类型化 API，只能在 Scala 项目中使用。

希望这有帮助。