hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

如何将Hadoop HDFS文件夹直接导出到远程服务器

我正在寻找将 HDFS 目录导出到远程服务器(到普通文件系统)的解决方案。我对两台服务器(本地和远程)都有 sudo/root 访问权限。要导出的文件大小约为 3TB ...

回答 0 投票 0

HDFS 上带有 Parquet 数据的 AutoFaiss - OSError:仅对可搜索文件有效

我正在尝试使用 autoafaiss 从以 Parquet 格式存储在 HDFS 中的数据集中生成 ANN 索引。运行 build_index 函数时,我遇到一个错误,指出“OSError:...

回答 0 投票 0

如何计算集群上的文件数量和大小?

如果文件是由不同用户创建的,如何统计一个公共集群上的文件数量和文件大小?即一个用户创建了10个文件,另一个用户创建了20个,第一个的大小是2GB,

回答 0 投票 0

如何计算 Impala 查询中的 NaN 项?

我有一张表,在一个双精度字段中有“NaN”。我只是想计算有多少项目是“NaN”: 从表中选择计数(*) 其中 col = 'NaN' AnalysisException:DOUBL 类型的操作数...

回答 3 投票 0

Parquet/Avro/CSV 用例

我们有一些 csv 格式如下 hash_id c1 c2 c3 其中 hash_id 是一个字符串,c1 c2 和 c3 是整数列表,0 或 1。 理想情况下,我们希望将其编码为一个 numpy 数组,...

回答 0 投票 0

更改 hdfs 中的节点

我们有将配置文件上传到 HDFS 的代码: 从 hdfs 导入 InsecureClient def upload_file_to_hdfs(local_path,remote_path): client = InsecureClient(url='http://hdfs_server:50070', user='...

回答 0 投票 0

Apache Beam 上的 Flink:找不到方案“hdfs”的文件系统实现

最近尝试将 s3 读取交换到 hdfs,在我的项目中具有以下依赖项: org.apache.beam ...

回答 0 投票 0

SparkStreaming或Flink应用的checkpoint路径不释放HDFS存储空间

应用实际数据与其使用空间不匹配。 hdfs dfs -du -h /landsat_flink_ha | grep G 42.9 K 89.3 G /landsat_flink_ha/application_1658448699056_990584 去里面...

回答 0 投票 0

TestDFSIO hdfs 退出文件

你好,我在 hdfs 中实施了一项新技术,以增强存储、吞吐量和访问时间。 我需要测量 HDFS 上现有文件的读/写性能,我发现了这个基准测试 TestD...

回答 0 投票 0

DolphinDB基于数据库的分区设计有什么优势?

DolphinDB 为什么分区是基于数据库而不是表? 这样的设计有什么好处?

回答 1 投票 0

尝试连接到 hadoop datanode 时出现超时错误

尝试将文件放入 hdfs 时出现此错误。 org.apache.hadoop.net.ConnectTimeoutException:60000 毫秒超时 等待通道准备好连接。频道: java.nio.chan...

回答 2 投票 0

reducers 的默认数量

在Hadoop中,如果我们没有设置reducer的数量,那么会创建多少个reducer? 就像映射器的数量取决于(总数据大小)/(输入分割大小), 例如。如果数据大小...

回答 2 投票 0

如何将项目 django 与 HDFS 连接?

我想把我的项目django和HDFS连接起来存储数据 我想将我的项目 django 与 HDFS 连接起来存储数据,我该怎么做

回答 0 投票 0

jupyter python 笔记本中来自 hdfs 的 spark addJar

我们正在运行一个连接到 hdfs 和 spark 集群的 jupyter notebook。有些用户需要为我们不想为所有笔记本部署的用例使用 jar 库。所以我们不想添加这个

回答 0 投票 0

Pyspark 3.3.0 数据框显示数据但写入 CSV 会创建空文件

面临一个非常不寻常的问题。如果运行 df.show(),Dataframe 会显示数据,但是,当尝试写入为 csv 时,操作完成且没有错误,但会写入 0 字节的空文件。 这是一个错误吗?有吗

回答 1 投票 0

DolphinDB集群中各个节点的作用是什么?控制器或代理可以用于内存计算吗?

我部署了一个单机集群(社区版),有1个控制器,1个代理,2个数据节点。 问题:每个节点的作用是什么? controller 或 agent 可以用于 in-memory

回答 1 投票 0

如何拥有同时工作的 3 个数据节点的集群?

我运行一个数据节点:./bin/hdfs datanode -conf ./etc/hadoop/datanode1.xml 只有一个工作 当我尝试运行两个时:“datanode 正在作为进程运行。首先停止它并确保 /tmp/hadoop-user-datan ...

回答 1 投票 0

Datanode目录为空

我已经启动了hdfs,但是网站上没有显示datanodes。 虽然当我在数据节点机器上运行“jps”命令时: 另外,Datanode 目录是空的。 这是内容...

回答 0 投票 0

为什么我不能更改 HDFS 中的数据节点端口

我阅读了 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 并希望我的数据节点在端口 9300 上运行。 我的 https-site.xml 如下: 我读了 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 并希望我的数据节点在端口 9300 上运行。 我的https-site.xml如下: <?xml version="1.0" encoding="UTF-8"?> <!-- Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.datanode.address</name> <value>0.0.0.0:9300</value> </property> <property> <name>dfs.datanode.http.address</name> <value>0.0.0.0:9201</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:9202</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:9202</value> </property> </configuration> 但是,hdfs 不遵守这些属性。 他们仍在使用默认端口。 Jennys-MacBook-Pro:sbin jennylian$ jps 56177 RemoteMavenServer36 60737 DataNode 61300 Jps 60630 NameNode 31862 GradleDaemon 56471 GradleDaemon 56201 GradleDaemon 1065 56206 GradleDaemon 60878 SecondaryNameNode Jennys-MacBook-Pro:sbin jennylian$ netstat -a - p | grep 9001 Jennys-MacBook-Pro:sbin jennylian$ lsof -i -n -P | grep 60737 lsof: WARNING: can't stat() nfs file system /System/Volumes/Data/home/bin Output information may be incomplete. assuming "dev=1a00002d" from mount table java 60737 jennylian 320u IPv4 0xb622558b083c60d5 0t0 TCP *:9866 (LISTEN) java 60737 jennylian 322u IPv4 0xb622558b083c4ba5 0t0 TCP 127.0.0.1:62733 (LISTEN) java 60737 jennylian 446u IPv4 0xb622558af8aa810d 0t0 TCP *:9864 (LISTEN) java 60737 jennylian 447u IPv4 0xb622558af8aa8ba5 0t0 TCP *:9867 (LISTEN) java 60737 jennylian 457u IPv4 0xb622558af8a9963d 0t0 TCP 127.0.0.1:62734->127.0.0.1:9000 (ESTABLISHED) 如何覆盖这些端口? 谢谢, 珍妮

回答 0 投票 0

Hadoop:启动数据节点时出错

我正在尝试启动hadoop。但是,Datanodes 无法启动,这是 start hdfs 命令的输出。虽然namenode是正确启动的。 启动名称节点 启动datanod ...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.