Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。
如何删除旧的 Spark 流数据? 我们有 Spark Streaming 进程,它从 kafka 读取数据,转换数据并写入 hdfs。 我们还有另一个 Spark 进程,它创建 Spark sql quer...
Hadoop:有 0 个数据节点正在运行,并且此操作中没有排除任何节点
我在VMware上部署了Hadoop集群。它们都运行在 CentOS 7 上。 在 Master 上发出命令 jps: [root@hadoopmaster 安娜]# jps 6225 名称节点 6995 资源管理器 6580 辅助名称节点 7254 日元 发出com...
我正在尝试在 hadoop HDFS 中查找与以下模式不匹配的文件 hdfs dfs -cat /*.gz 如何捕获所有不以 .gz 结尾的文件? 编辑:抱歉,但我需要在 Hadoop 中查找文件,
如何删除旧的 Spark 流数据? 我们有 Spark Streaming 进程,它从 kafka 读取数据,转换数据并写入 hdfs。 我们还有另一个 Spark 进程,它创建 Spark sql 查询...
namenode datanode jps 未在 Windows 命令中列出?
启动 hdfs namenode -format 命令后 它不会在 jps 命令中列出名称节点和数据节点 我仍然没有尝试任何东西,因为 Linux 命令中的所有答案我都想要 Windows co...
Yarn UI 显示没有活动节点,而它出现在 HDFS UI 中
我已经在我的笔记本电脑中设置了 Hadoop, 当我在 Hadoop 上提交作业时(通过 MapReduce 和 Tez), 状态始终为 ACCEPTED,但进度始终停留在 0%,并且描述写的是“w...
这是我第一次开发HDFS集群。我发现我可以更改文件所属或权限。 我不明白的是,如果我在 namenode 上创建用户 carl 并更改 /test dire 的所有者...
所以我试图弄清楚如何在不满足 case-when 语句的情况下使 SQL 语句失败。 我一直在做一些搜索,但没有找到任何有用的东西 这是例如查询..
Spark java.io.EOFException:过早的 EOF:没有可用的长度前缀
我正在尝试读取 parquet 文件并对其执行一些操作,并将结果作为 parquet 保存在 HDFS 上。我正在使用 Spark 进行此操作。这样做时我遇到了以下异常。 java.io.
有没有办法删除HDFS上超过10天的文件? 在 Linux 中我会使用: 查找/path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; 有没有办法在 HDFS 上做到这一点? (
配置错误:namenode地址dfs.namenode.rpc-address未配置
当我尝试启动 DataNode 时收到此错误。据我所知,RPC 参数仅用于 HA 配置,我没有设置(我认为)。 2014-05-18 18:05:00,589
是否可以在 HDFS 上运行二进制可执行文件?我必须在 HDFS 上处理一些文件。到目前为止,我的做法是 hdfs dfs - 将文件获取到本地服务器,处理它,然后 hdfs dfs ...
Hadoop:MapReduce 作业给出 Java 库错误
当我在 Cloudera VM 中运行任何 MapReduce 作业时,以下警告会连续出现 4-5 次。请让我知道如何解决它。 16/11/06 00:47:38 警告 hdfs.DFSClient:捕获异常...
我面临着一个我不知道如何解决的问题。 我已将 csv 文件上传到路径 /user/oscarvicenteremonhotmail/StockPrices.csv 和 /user/oscarvicenteremonhotmail/hdfshive/
容器以非零退出代码 50 退出,用于将 Spark Dataframe 保存到 hdfs
我正在 Pyspark 上运行一个小脚本,从 hbase 表中提取一些数据并创建一个 Pyspark 数据框。我正在尝试将数据帧保存回本地 hdfs,并且正在运行...
我有一个带有第一个架构的 avro 文件,然后我更新了附加到同一文件的架构。所以现在我在一个文件中有两个模式。 avro 如何处理这种情况。我会有什么新领域吗...
我无法将嵌套的 JSON 数据加载到 Hive 表中。以下是我尝试过的: 输入示例: {"DocId":"ABC","User1":{"Id":1234,"用户名":"
我使用Hadoop的FileSystem类来删除一些HDFS文件。现在的问题是,客户端在太长的持续时间后出现连接超时,我需要缩短等待时间,直到
HDFS 中的数据节点与 Spark 集群中的执行器节点相同吗?
我正在学习 Apache Spark 和 HDFS。尽管我对一件事感到困惑,但我大部分都理解它们。我的问题是:HDFS中的数据节点和执行器是一样的吗