解析CSV的Windows Linux上的Apache中的星火

Question

似乎我试图解析从Windows机器来使用Apache星火Linux机器上一个CSV文件，但强调字符不被认可......

Dataset<Row> df = spark
    .read()
    .format("csv")
    .option("header", "true")
    .option("inferSchema", "true")
    .load("file.csv");

Answer 1

看起来你几乎没有。尝试：

Dataset<Row> df = spark
    .read()
    .format("csv")
    .option("header", "true")
    .option("inferSchema", "true")
    .option("encoding", "cp1252")
    .load("file.csv");

您可以指定encodingas的选项。对于Windows，它是CP1252。

Answer 2

另一种方式是，一旦它被带到Linux的从dos2unix内运行的文件Terminal命令。

dos2unix <file_name>

这将确保从文件中删除回车符，将成为Linux的友好。

解析CSV的Windows Linux上的Apache中的星火

问题描述投票：1回答：2

2个回答

最新问题

解析CSV的Windows Linux上的Apache中的星火

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2