我想加载一个包含分隔符“|”的文本文件进入Spark中的Dataframe。一种方法是创建RDD并使用toDF来创建Dataframe。但是我想知道我是否可以直接创建DF。截至目前,我正在使用以下命令
val productsDF = sqlContext.read.text("/user/danishdshadab786/paper2/products/")
val df = spark.read.format("csv")
.option("delimiter", "|")
.load("/user/danishdshadab786/paper2/products/")
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("delimiter", "|")
.load("/user/danishdshadab786/paper2/products/")
您可以添加更多选项,如option("header", "true")
,以便在同一语句中读取标题。
您可以在“读取”选项中指定分隔符:
spark.read
.option("delimiter", "|")
.csv("/user/danishdshadab786/paper2/products/")