我在spark中加载hdfs文件并计算计数:
spark.read.format("json").option("path","xxx").load().count
但是结果小于:
hdfs dfs -cat xxx|wc -l
hdfs文件由水槽hdfs接收器附加。
任何人都知道为什么会这样吗?以及我该如何解决?
很难确定,但看不到文件,但::>
wc -l
计算文件中的行数count
将为您提供json记录的数量。如果JSON记录是多行的=> json records < nb lines in files