Pyspark:如果有10万、100万、300万条记录。您将使用什么 Dataframe/rdd/dataset 以及为什么?只需详细说明 10 万卡,您将类似地使用 100 万卡和 300 万卡
寻找完美答案。没有具体场景
默认且最佳的选择是使用Dataframes。
Dataframes 是高级 API,Spark 自动优化它们并生成 RDD。
Python 和 Scala 都支持数据帧。
RDD是低级API,数据工程师通常发现它们很难优化。使用 Dataframes 将帮助您轻松地将代码迁移到任何其他云平台,例如 Databricks。
数据集不太常用,因为它们在 Python 中不受支持,因为它们是类型化 API,只能在 Scala 项目中使用。
希望这有帮助。