hdfs 相关问题

Hadoop分布式文件系统（HDFS）是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本，并将它们分布在整个集群中的数据节点上，以实现可靠的计算，并计算商用硬件上的大量数据。

最近尝试将 s3 读取交换到 hdfs，在我的项目中具有以下依赖项： org.apache.beam ...

hdfs apache-flink apache-beam

回答 0 投票 0

SparkStreaming或Flink应用的checkpoint路径不释放HDFS存储空间

应用实际数据与其使用空间不匹配。 hdfs dfs -du -h /landsat_flink_ha | grep G 42.9 K 89.3 G /landsat_flink_ha/application_1658448699056_990584 去里面...

apache-spark hdfs apache-flink checkpoint

回答 0 投票 0

TestDFSIO hdfs 退出文件

你好，我在 hdfs 中实施了一项新技术，以增强存储、吞吐量和访问时间。我需要测量 HDFS 上现有文件的读/写性能，我发现了这个基准测试 TestD...

hadoop jar hdfs benchmarking

回答 0 投票 0

DolphinDB基于数据库的分区设计有什么优势？

DolphinDB 为什么分区是基于数据库而不是表？这样的设计有什么好处？

hdfs database-partitioning dolphindb

回答 1 投票 0

尝试连接到 hadoop datanode 时出现超时错误

尝试将文件放入 hdfs 时出现此错误。 org.apache.hadoop.net.ConnectTimeoutException：60000 毫秒超时等待通道准备好连接。频道： java.nio.chan...

hadoop hdfs ambari

回答 2 投票 0

reducers 的默认数量

在Hadoop中，如果我们没有设置reducer的数量，那么会创建多少个reducer？就像映射器的数量取决于（总数据大小）/（输入分割大小），例如。如果数据大小...

hadoop mapreduce hdfs

回答 2 投票 0

如何将项目 django 与 HDFS 连接？

我想把我的项目django和HDFS连接起来存储数据我想将我的项目 django 与 HDFS 连接起来存储数据，我该怎么做

django django-rest-framework hdfs webhdfs pyhdfs-client

回答 0 投票 0

jupyter python 笔记本中来自 hdfs 的 spark addJar

我们正在运行一个连接到 hdfs 和 spark 集群的 jupyter notebook。有些用户需要为我们不想为所有笔记本部署的用例使用 jar 库。所以我们不想添加这个

python apache-spark jupyter-notebook dependencies hdfs

回答 0 投票 0

Pyspark 3.3.0 数据框显示数据但写入 CSV 会创建空文件

面临一个非常不寻常的问题。如果运行 df.show()，Dataframe 会显示数据，但是，当尝试写入为 csv 时，操作完成且没有错误，但会写入 0 字节的空文件。这是一个错误吗？有吗

python apache-spark pyspark apache-spark-sql hdfs

回答 1 投票 0

DolphinDB集群中各个节点的作用是什么？控制器或代理可以用于内存计算吗？

我部署了一个单机集群（社区版），有1个控制器，1个代理，2个数据节点。问题：每个节点的作用是什么？ controller 或 agent 可以用于 in-memory

hdfs cluster-computing dolphindb

回答 1 投票 0

如何拥有同时工作的 3 个数据节点的集群？

我运行一个数据节点：./bin/hdfs datanode -conf ./etc/hadoop/datanode1.xml 只有一个工作当我尝试运行两个时：“datanode 正在作为进程运行。首先停止它并确保 /tmp/hadoop-user-datan ...

hadoop localhost hdfs namenode datanode

回答 1 投票 0

Datanode目录为空

我已经启动了hdfs，但是网站上没有显示datanodes。虽然当我在数据节点机器上运行“jps”命令时：另外，Datanode 目录是空的。这是内容...

hadoop hdfs datanode

回答 0 投票 0

为什么我不能更改 HDFS 中的数据节点端口

我阅读了 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 并希望我的数据节点在端口 9300 上运行。我的 https-site.xml 如下：我读了 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 并希望我的数据节点在端口 9300 上运行。我的https-site.xml如下： <?xml version="1.0" encoding="UTF-8"?>  <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.datanode.address</name> <value>0.0.0.0:9300</value> </property> <property> <name>dfs.datanode.http.address</name> <value>0.0.0.0:9201</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:9202</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:9202</value> </property> </configuration> 但是，hdfs 不遵守这些属性。他们仍在使用默认端口。 Jennys-MacBook-Pro:sbin jennylian$ jps 56177 RemoteMavenServer36 60737 DataNode 61300 Jps 60630 NameNode 31862 GradleDaemon 56471 GradleDaemon 56201 GradleDaemon 1065 56206 GradleDaemon 60878 SecondaryNameNode Jennys-MacBook-Pro:sbin jennylian$ netstat -a - p | grep 9001 Jennys-MacBook-Pro:sbin jennylian$ lsof -i -n -P | grep 60737 lsof: WARNING: can't stat() nfs file system /System/Volumes/Data/home/bin Output information may be incomplete. assuming "dev=1a00002d" from mount table java 60737 jennylian 320u IPv4 0xb622558b083c60d5 0t0 TCP *:9866 (LISTEN) java 60737 jennylian 322u IPv4 0xb622558b083c4ba5 0t0 TCP 127.0.0.1:62733 (LISTEN) java 60737 jennylian 446u IPv4 0xb622558af8aa810d 0t0 TCP *:9864 (LISTEN) java 60737 jennylian 447u IPv4 0xb622558af8aa8ba5 0t0 TCP *:9867 (LISTEN) java 60737 jennylian 457u IPv4 0xb622558af8a9963d 0t0 TCP 127.0.0.1:62734->127.0.0.1:9000 (ESTABLISHED) 如何覆盖这些端口？谢谢，珍妮

hdfs datanode

回答 0 投票 0

Hadoop：启动数据节点时出错

我正在尝试启动hadoop。但是，Datanodes 无法启动，这是 start hdfs 命令的输出。虽然namenode是正确启动的。启动名称节点启动datanod ...

hadoop hdfs

回答 0 投票 0

如何在CDP上使用hive快照？

我们想使用 HDFS 快照来保护数据免受人为错误。但我想知道我们如何恢复配置单元表的快照。我知道我们将需要再次重新创建模式/表，但我们如何...

hive hdfs cloudera snapshot

回答 1 投票 0

How to compare rows within a group in hive sql

我需要编写一个查询来比较配置单元中组内的列。我可以使用自连接来实现它，但是查询需要很长时间才能完成，你能建议一些其他的方法来解决 t...