hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

在 HDFS 上写入会弄乱数据

我试图将 Hive 查询的输出保存在 HDFS 上,但数据发生了更改。任何想法? 请参阅下面的数据和更改后的数据。 删除文件名前的空格:) 正确的: 乱七八糟:

回答 1 投票 0

如何判断hadoop namenode是否已经格式化?

第一次配置我的hadoop namenode时,我知道我需要运行 bin/hadoop namenode -格式 但在将数据加载到 HDFS 后,第二次运行此操作将清除所有内容,

回答 2 投票 0

停用hdfs中的数据节点

我在 Apache hdfs 中有一些复制因子为 1 的数据节点,想要停用其中一些节点,并且不想丢失存储在其中的数据。 由于数据量太大,无法下载数据...

回答 1 投票 0

无需停机即可覆盖 Hive 表

我有一个与 HDFS 路径关联的配置单元表。该表被定期作业覆盖,并且有一些下游消费者。该表在被覆盖时会被删除,并且如果出现

回答 1 投票 0

HDFS 复制因子对 namenode 内存的影响

增加复制因子是否会增加 HDFS 中名称节点的内存使用量? 此链接指出复制因子对名称节点内存使用没有影响,但另一个链接指出不然。

回答 1 投票 0

hadoop 的名称节点和数据节点之间的集群 ID 不兼容

在 Windows 11 上,我安装了最新可用版本的 Docker Desktop。之后,我访问了官方 Apache Hadoop GitHub 存储库:https://github.com/apache/hadoop/tree/docker-had...

回答 1 投票 0

hadoop/hdfs/name 处于不一致状态:存储目录(hadoop/hdfs/data/)不存在或不可访问

我已经尝试了 stackoverflow 上提供的有关此主题的所有不同解决方案,但没有帮助 再次询问具体的日志和详细信息 任何帮助表示赞赏 我有一个主节点...

回答 7 投票 0

PutHDFS Nifi问题

早上好,我想创建一个从某个 URL 到我的 HDFS 的 Nifi 流。我使用我的个人构建和 Dockerfile 在本地创建了 HDFS 集群,它正在工作,但是当我尝试使用

回答 1 投票 0

在生产环境中部署时如何读取项目中的db.properties文件或任何其他conf文件......在scala Spark YARN HDFS中

在生产环境中部署时如何读取项目中的 db.properties 文件或任何其他 conf 文件......在 scala Spark Yarn HDFS 中...... 我收到这个错误... 2009 年 5 月 24 日 16:34:32 信息 客户: ...

回答 1 投票 0

Spark 基于多个分区(即 DATE_KEY 和 BASE_FEED)读取镶木地板文件

我正在使用 PySpark 从按 DATE_KEY 分区的 HDFS 位置读取镶木地板文件。以下代码始终从 MAX(DATE_KEY) 分区读取文件并转换为 Polars 数据帧。 定义

回答 1 投票 0

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api,但找不到任何接近它的东西。基本上我想检查目录是否...

回答 3 投票 0

awk 如何处理 HDFS 的目录?

我想将HDFS的目录名与awk结合起来。这可行吗?目录名,而不是文件名。 这是我在本地的 awk 工作正常: awk 'NR <= 1000 && FNR == 1{print

回答 1 投票 0

Hive 将数据存储在哪里?

我对 Hive 存储数据的位置有点困惑。 它将数据存储在 HDFS 还是 RDBMS 中? Hive Metastore 是否使用 RDBMS 来存储 Hive 表元数据?

回答 2 投票 0

过滤掉非目录inode的hdfs审计日志

我正在使用logstash 将 HDFS 审核日志消息填充到 Kafka 主题中。 我在 Kafka 主题中收到的示例消息具有以下格式: allowed=true ugi={myuser} (auth:SIMPLE) ip={/x.x.x...

回答 1 投票 0

使用本地文件进行 Spark 流式处理(Python)

有没有办法扫描本地文件系统以查找特定文件夹中的更改,就像使用 HDFS (GitHub 示例)一样?使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作,但是使用...

回答 1 投票 0

运行 Spark-shell 时出现错误:SparkContext:初始化 SparkContext 时出错

我在三个节点上成功安装了spark。我可以访问 Spark Web UI 并发现每个工作节点和主节点都处于活动状态。 我可以成功运行 SparkPi 示例。 我的集群信息: 10.45.10.33(

回答 2 投票 0

如何将 sas7bdat 文件转换为 csv?

我想将 .sas7bdat 文件转换为 .csv/txt 格式,以便我可以将其上传到配置单元表中。 我从外部服务器接收 .sas7bdat 文件,但我的计算机上没有 SAS。

回答 6 投票 0

‘save’目前不支持bucketBy和sortBy

当使用下面的命令将数据帧保存在 HDFS 上时,我尝试在数据帧上应用分桶。 df.写入 .format("镶木地板") .bucketBy(200,"groupIdProjection") .sortBy("

回答 1 投票 0

FileNotFound hadoop 而在那里

我正在尝试制作一个Map-reduce程序,它将执行2个周期。第一个映射缩减周期将创建一个包含 2 个键|值对的文件。然后我需要在

回答 1 投票 0

从包含空格的路径加载hdfs文件到hive表

我正在尝试从带有分区的镶木地板文件创建一个配置单元表。 创建外部表 a(col1 string, col2 string),由 (col3 string) 分区,存储为镶木地板位置 '/qa/app/project/'; 微软

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.