hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

Pyspark 3.3.0 数据框显示数据但写入 CSV 会创建空文件

面临一个非常不寻常的问题。如果运行 df.show(),Dataframe 会显示数据,但是,当尝试写入为 csv 时,操作完成且没有错误,但会写入 0 字节的空文件。 这是一个错误吗?有吗

回答 1 投票 0

DolphinDB集群中各个节点的作用是什么?控制器或代理可以用于内存计算吗?

我部署了一个单机集群(社区版),有1个控制器,1个代理,2个数据节点。 问题:每个节点的作用是什么? controller 或 agent 可以用于 in-memory

回答 1 投票 0

如何拥有同时工作的 3 个数据节点的集群?

我运行一个数据节点:./bin/hdfs datanode -conf ./etc/hadoop/datanode1.xml 只有一个工作 当我尝试运行两个时:“datanode 正在作为进程运行。首先停止它并确保 /tmp/hadoop-user-datan ...

回答 1 投票 0

Datanode目录为空

我已经启动了hdfs,但是网站上没有显示datanodes。 虽然当我在数据节点机器上运行“jps”命令时: 另外,Datanode 目录是空的。 这是内容...

回答 0 投票 0

为什么我不能更改 HDFS 中的数据节点端口

我阅读了 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 并希望我的数据节点在端口 9300 上运行。 我的 https-site.xml 如下: 我读了 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 并希望我的数据节点在端口 9300 上运行。 我的https-site.xml如下: <?xml version="1.0" encoding="UTF-8"?> <!-- Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.datanode.address</name> <value>0.0.0.0:9300</value> </property> <property> <name>dfs.datanode.http.address</name> <value>0.0.0.0:9201</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:9202</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:9202</value> </property> </configuration> 但是,hdfs 不遵守这些属性。 他们仍在使用默认端口。 Jennys-MacBook-Pro:sbin jennylian$ jps 56177 RemoteMavenServer36 60737 DataNode 61300 Jps 60630 NameNode 31862 GradleDaemon 56471 GradleDaemon 56201 GradleDaemon 1065 56206 GradleDaemon 60878 SecondaryNameNode Jennys-MacBook-Pro:sbin jennylian$ netstat -a - p | grep 9001 Jennys-MacBook-Pro:sbin jennylian$ lsof -i -n -P | grep 60737 lsof: WARNING: can't stat() nfs file system /System/Volumes/Data/home/bin Output information may be incomplete. assuming "dev=1a00002d" from mount table java 60737 jennylian 320u IPv4 0xb622558b083c60d5 0t0 TCP *:9866 (LISTEN) java 60737 jennylian 322u IPv4 0xb622558b083c4ba5 0t0 TCP 127.0.0.1:62733 (LISTEN) java 60737 jennylian 446u IPv4 0xb622558af8aa810d 0t0 TCP *:9864 (LISTEN) java 60737 jennylian 447u IPv4 0xb622558af8aa8ba5 0t0 TCP *:9867 (LISTEN) java 60737 jennylian 457u IPv4 0xb622558af8a9963d 0t0 TCP 127.0.0.1:62734->127.0.0.1:9000 (ESTABLISHED) 如何覆盖这些端口? 谢谢, 珍妮

回答 0 投票 0

Hadoop:启动数据节点时出错

我正在尝试启动hadoop。但是,Datanodes 无法启动,这是 start hdfs 命令的输出。虽然namenode是正确启动的。 启动名称节点 启动datanod ...

回答 0 投票 0

如何在CDP上使用hive快照?

我们想使用 HDFS 快照来保护数据免受人为错误。 但我想知道我们如何恢复配置单元表的快照。 我知道我们将需要再次重新创建模式/表,但我们如何...

回答 1 投票 0

How to compare rows within a group in hive sql

我需要编写一个查询来比较配置单元中组内的列。我可以使用自连接来实现它,但是查询需要很长时间才能完成,你能建议一些其他的方法来解决 t...

回答 0 投票 0

需要一些帮助将文件夹从 HDFS 复制到 AWS S3,并记录成功或失败的信息

我需要一些帮助来将文件夹从 HDFS 复制到 AWS S3,其中包含成功或失败的日志信息(比如 app.log)。它应该捕获所有信息。 我确实有一个使用 Paramiko

回答 0 投票 0

[PySpark][df.write.csv 上的 java.lang.StackOverflowError]

我在 Kubernetes 集群上使用 PySpark 版本 3.1.1 我正在尝试以 csv 格式将 spark 数据帧写入 HDFS。 Dataframe 有大约 240 万行和 130 列,有 5 个分区。如果我...

回答 0 投票 0

我怎样才能解决这个问题:hadoop namenode -format 给出错误?

我设置了 Hadoop HA 集群。 我尝试将 hadoop 格式化为以下代码: hdfs --loglevel DEBUG namenode -format -force 然后当我看到日志时(它不是 DEBUG 模式,这是我遇到的另一个问题...

回答 1 投票 0

com.amazonaws.services.s3.model.AmazonS3Exception:状态代码:400,AWS 服务;使用文件系统

使用以下配置,我使用 java 客户端代码通过 Hadoop 文件系统连接到 s3。 配置configuration = new Configuration(); 配置.set("fs.s3a.impl"...

回答 0 投票 0

hdfs路径删除后,如何删除Hive中的外部表?

我已经删除了我的 HDFS 路径 /user/abc,一些 Hive 表存储在 /user/abc/data/abc.db 中,使用 rm -R 命令。 尽管使用 Hive SQL 正确删除了我的常规表,但我的外部 ...

回答 2 投票 0

GENERATE_EEK和GET_METADATA在hdfs透明加密中的作用

我不太清楚 GENERATE_EEK 和 GET_METADATA 的 ACL 允许什么。 从对 HDFS 透明加密的天真理解来看,GENERATE_EEK 似乎是一个生成 ...

回答 1 投票 0

如何让 Spark avro 阅读器在读取分区时停止推断类型

尝试从 hdfs 读取按年月日分区的 avro 文件。 我期望分区被读取为字符串,但类型被推断为整数 所以说我正在阅读 avro 文件......

回答 0 投票 0

HWC在hive 3管理的表中写入时执行错误

我正在开发一个spark测试程序,读取一个外部的hive表,执行一些转换,并使用Hive wharehouse连接器写入hive管理的表,以测试两者之间的连接... ...

回答 1 投票 1

Hive - 从三个外部表创建一个内部表。

我在HIVE中有三个外部表:表1:CREATE EXTERNAL TABLE IF NOT EXISTS table_1( unique_key_column_1 VARCHAR, column_needed_1 DATE, column_needed_2 TIMESTAMP, column_needed_3 INT, ...。

回答 1 投票 0

为elasticsearch注册一个基于HDFS的快照仓库时,出现连接拒绝错误。

使用dockers测试elasticsearch快照-restore与HDFS仓库插件。从Docker Hub拉来hadoop-docker和elasticsearch.docker run -it -d -p 8088:8088 -p 51270:50070 -p 9000:...

回答 1 投票 0

Hadoop- Namenode在Safemode中,为什么?

我遇到了一个问题,在namenode日志中显示 "Name node is in safe mode",而命令 "hdfs dfs -safemode get "的输出却显示 "Safe mode is OFF"。请帮助我

回答 1 投票 0

如何用Apache Spark读写协议缓冲区消息?

我想用Apache Spark从HDFS读写协议缓冲区的消息。我发现这些建议的方法。1)用Google的Gson Library将protobuf messsages转换为Json,然后Readwrite ...

回答 1 投票 9

© www.soinside.com 2019 - 2024. All rights reserved.