Spark DataFrame是Untyped vs DataFrame有架构吗?

问题描述 投票:0回答:1

我是Spark的初学者,在阅读有关Dataframe的内容时,我经常在数据框下面找到两个语句 - 1)DataFrame是无类型的2)DataFrame有模式(比如数据库表,其中包含与表属性相关的所有信息 - 名称,类型,不是空值)

这两种说法都不矛盾吗?首先我们说Dataframe是未键入的,同时我们也说Dataframe有关于所有列的信息,即架构,请帮助我在这里缺少什么?因为如果数据帧有架构,那么它也知道列的类型,以便它如何成为未键入的?

apache-spark apache-spark-sql bigdata
1个回答
1
投票

DataFrames是动态类型的,而Datasets和RDD是静态类型的。这意味着当您定义数据集或RDD时,您需要显式指定表示内容的类。这可能很有用,因为当您在数据集上编写转换时,编译器可以检查代码的类型安全性。以这个宠物信息数据集为例。当我使用pet.speciespet.name时,编译器在编译时知道它们的类型。

case class Pet(name: String, species: String, age: Int, weight: Double)

val data: Dataset[Pet] = Seq(
  Pet("spot", "dog", 2, 50.5),
  Pet("mittens", "cat", 11, 15.5),
  Pet("mickey", "mouse", 1, 1.5)).toDS
println(data.map(x => x.getClass.getSimpleName).first)
// Pet

val newDataset: Dataset[String] = data.map(pet => s"I have a ${pet.species} named ${pet.name}.")

当我们切换到使用DataFrame时,架构保持不变并且数据仍然是类型化的(或结构化的),但此信息仅在运行时可用。这称为动态类型。这可以防止编译器捕获您的错误,但它可以非常有用,因为它允许您编写类似SQL的语句并动态定义新列,例如将列附加到现有DataFrame,而无需为每个都定义新类操作很少。另一方面,您可以定义导致空值或在某些情况下导致运行时错误的错误操作。

val df: DataFrame = data.toDF
df.printSchema()
// root
// |-- name: string (nullable = true)
// |-- species: string (nullable = true)
// |-- age: integer (nullable = false)
// |-- weight: double (nullable = false)

val newDf: DataFrame = df
  .withColumn("some column", ($"age" + $"weight"))
  .withColumn("bad column", ($"name" + $"age"))
newDf.show()
// +-------+-------+---+------+-----------+----------+
// |   name|species|age|weight|some column|bad column|
// +-------+-------+---+------+-----------+----------+
// |   spot|    dog|  2|  50.5|       52.5|      null|
// |mittens|    cat| 11|  15.5|       26.5|      null|
// | mickey|  mouse|  1|   1.5|        2.5|      null|
// +-------+-------+---+------+-----------+----------+
© www.soinside.com 2019 - 2024. All rights reserved.