尝试从带有分隔符“|”的文件创建数据框

Question

我想加载一个包含分隔符“|”的文本文件进入Spark中的Dataframe。一种方法是创建RDD并使用toDF来创建Dataframe。但是我想知道我是否可以直接创建DF。截至目前，我正在使用以下命令

val productsDF = sqlContext.read.text("/user/danishdshadab786/paper2/products/")

Answer 1

For Spark 2.x

val df = spark.read.format("csv")
      .option("delimiter", "|")
      .load("/user/danishdshadab786/paper2/products/")

For Spark<2.0

val df = sqlContext.read
      .format("com.databricks.spark.csv")
      .option("delimiter", "|")
      .load("/user/danishdshadab786/paper2/products/")

您可以添加更多选项，如option("header", "true")，以便在同一语句中读取标题。

Answer 2

您可以在“读取”选项中指定分隔符：

spark.read
.option("delimiter", "|")
.csv("/user/danishdshadab786/paper2/products/")

尝试从带有分隔符“|”的文件创建数据框

问题描述投票：0回答：2

2个回答

For Spark 2.x

For Spark<2.0

最新问题

尝试从带有分隔符“|”的文件创建数据框

问题描述 投票：0回答：2

2个回答

For Spark 2.x

For Spark<2.0

最新问题

问题描述投票：0回答：2