似乎我试图解析从Windows机器来使用Apache星火Linux机器上一个CSV文件,但强调字符不被认可......
Dataset<Row> df = spark
.read()
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("file.csv");
看起来你几乎没有。尝试:
Dataset<Row> df = spark
.read()
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.option("encoding", "cp1252")
.load("file.csv");
您可以指定encoding
as的选项。对于Windows,它是CP1252。
另一种方式是,一旦它被带到Linux的从dos2unix
内运行的文件Terminal
命令。
dos2unix <file_name>
这将确保从文件中删除回车符,将成为Linux的友好。