Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。
Apache Beam 上的 Flink:找不到方案“hdfs”的文件系统实现
最近尝试将 s3 读取交换到 hdfs,在我的项目中具有以下依赖项: org.apache.beam ...
SparkStreaming或Flink应用的checkpoint路径不释放HDFS存储空间
应用实际数据与其使用空间不匹配。 hdfs dfs -du -h /landsat_flink_ha | grep G 42.9 K 89.3 G /landsat_flink_ha/application_1658448699056_990584 去里面...
你好,我在 hdfs 中实施了一项新技术,以增强存储、吞吐量和访问时间。 我需要测量 HDFS 上现有文件的读/写性能,我发现了这个基准测试 TestD...
DolphinDB 为什么分区是基于数据库而不是表? 这样的设计有什么好处?
尝试将文件放入 hdfs 时出现此错误。 org.apache.hadoop.net.ConnectTimeoutException:60000 毫秒超时 等待通道准备好连接。频道: java.nio.chan...
在Hadoop中,如果我们没有设置reducer的数量,那么会创建多少个reducer? 就像映射器的数量取决于(总数据大小)/(输入分割大小), 例如。如果数据大小...
我想把我的项目django和HDFS连接起来存储数据 我想将我的项目 django 与 HDFS 连接起来存储数据,我该怎么做
jupyter python 笔记本中来自 hdfs 的 spark addJar
我们正在运行一个连接到 hdfs 和 spark 集群的 jupyter notebook。有些用户需要为我们不想为所有笔记本部署的用例使用 jar 库。所以我们不想添加这个
Pyspark 3.3.0 数据框显示数据但写入 CSV 会创建空文件
面临一个非常不寻常的问题。如果运行 df.show(),Dataframe 会显示数据,但是,当尝试写入为 csv 时,操作完成且没有错误,但会写入 0 字节的空文件。 这是一个错误吗?有吗
DolphinDB集群中各个节点的作用是什么?控制器或代理可以用于内存计算吗?
我部署了一个单机集群(社区版),有1个控制器,1个代理,2个数据节点。 问题:每个节点的作用是什么? controller 或 agent 可以用于 in-memory
我运行一个数据节点:./bin/hdfs datanode -conf ./etc/hadoop/datanode1.xml 只有一个工作 当我尝试运行两个时:“datanode 正在作为进程运行。首先停止它并确保 /tmp/hadoop-user-datan ...
我已经启动了hdfs,但是网站上没有显示datanodes。 虽然当我在数据节点机器上运行“jps”命令时: 另外,Datanode 目录是空的。 这是内容...
我阅读了 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 并希望我的数据节点在端口 9300 上运行。 我的 https-site.xml 如下: 我读了 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 并希望我的数据节点在端口 9300 上运行。 我的https-site.xml如下: <?xml version="1.0" encoding="UTF-8"?> <!-- Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.datanode.address</name> <value>0.0.0.0:9300</value> </property> <property> <name>dfs.datanode.http.address</name> <value>0.0.0.0:9201</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:9202</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:9202</value> </property> </configuration> 但是,hdfs 不遵守这些属性。 他们仍在使用默认端口。 Jennys-MacBook-Pro:sbin jennylian$ jps 56177 RemoteMavenServer36 60737 DataNode 61300 Jps 60630 NameNode 31862 GradleDaemon 56471 GradleDaemon 56201 GradleDaemon 1065 56206 GradleDaemon 60878 SecondaryNameNode Jennys-MacBook-Pro:sbin jennylian$ netstat -a - p | grep 9001 Jennys-MacBook-Pro:sbin jennylian$ lsof -i -n -P | grep 60737 lsof: WARNING: can't stat() nfs file system /System/Volumes/Data/home/bin Output information may be incomplete. assuming "dev=1a00002d" from mount table java 60737 jennylian 320u IPv4 0xb622558b083c60d5 0t0 TCP *:9866 (LISTEN) java 60737 jennylian 322u IPv4 0xb622558b083c4ba5 0t0 TCP 127.0.0.1:62733 (LISTEN) java 60737 jennylian 446u IPv4 0xb622558af8aa810d 0t0 TCP *:9864 (LISTEN) java 60737 jennylian 447u IPv4 0xb622558af8aa8ba5 0t0 TCP *:9867 (LISTEN) java 60737 jennylian 457u IPv4 0xb622558af8a9963d 0t0 TCP 127.0.0.1:62734->127.0.0.1:9000 (ESTABLISHED) 如何覆盖这些端口? 谢谢, 珍妮
我正在尝试启动hadoop。但是,Datanodes 无法启动,这是 start hdfs 命令的输出。虽然namenode是正确启动的。 启动名称节点 启动datanod ...
我们想使用 HDFS 快照来保护数据免受人为错误。 但我想知道我们如何恢复配置单元表的快照。 我知道我们将需要再次重新创建模式/表,但我们如何...
How to compare rows within a group in hive sql
我需要编写一个查询来比较配置单元中组内的列。我可以使用自连接来实现它,但是查询需要很长时间才能完成,你能建议一些其他的方法来解决 t...
需要一些帮助将文件夹从 HDFS 复制到 AWS S3,并记录成功或失败的信息
我需要一些帮助来将文件夹从 HDFS 复制到 AWS S3,其中包含成功或失败的日志信息(比如 app.log)。它应该捕获所有信息。 我确实有一个使用 Paramiko
[PySpark][df.write.csv 上的 java.lang.StackOverflowError]
我在 Kubernetes 集群上使用 PySpark 版本 3.1.1 我正在尝试以 csv 格式将 spark 数据帧写入 HDFS。 Dataframe 有大约 240 万行和 130 列,有 5 个分区。如果我...
我怎样才能解决这个问题:hadoop namenode -format 给出错误?
我设置了 Hadoop HA 集群。 我尝试将 hadoop 格式化为以下代码: hdfs --loglevel DEBUG namenode -format -force 然后当我看到日志时(它不是 DEBUG 模式,这是我遇到的另一个问题...
com.amazonaws.services.s3.model.AmazonS3Exception:状态代码:400,AWS 服务;使用文件系统
使用以下配置,我使用 java 客户端代码通过 Hadoop 文件系统连接到 s3。 配置configuration = new Configuration(); 配置.set("fs.s3a.impl"...