无法完全加载hdfs文件

问题描述投票：0回答：1

我在spark中加载hdfs文件并计算计数：

spark.read.format("json").option("path","xxx").load().count

但是结果小于：

hdfs dfs -cat xxx|wc -l

hdfs文件由水槽hdfs接收器附加。

任何人都知道为什么会这样吗？以及我该如何解决？

apache-spark hdfs flume

1个回答

0
投票

很难确定，但看不到文件，但::>

[wc -l计算文件中的行数
spark count将为您提供json记录的数量。

如果JSON记录是多行的=> json records < nb lines in files

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.