hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

如何用Apache Spark读写协议缓冲区消息?

我想用Apache Spark从HDFS读写协议缓冲区的消息。我发现这些建议的方法。1)用Google的Gson Library将protobuf messsages转换为Json,然后Readwrite ...

回答 1 投票 9

HDFS主站(Namenode)的责任是什么?

嗨,有谁能给我解释一下HDFS主控(Namenode负责什么? 也有谁能给我解释一下HDFS中Namenode和Datanode元数据到底是什么。我最近开始学习SPARK,但我们的讲座没有...

回答 1 投票 0

Hadoop客户端无法连接到数据节点。

我在ec2上有一个单节点hadoop集群。尝试在 slaves 文件中给出所有可能的组合。5月1日2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866 May ....

回答 1 投票 0

HDFS中的parquet文件的最佳压缩技术。

我想为Hdfs中的parquet文件保留数据,对于这些已经用snappy压缩过的文件类型,用什么压缩技术好呢?

回答 1 投票 0

在AWS上运行HDFS集群,不需要EMR。

我想在AWS上运行一个HDFS集群,在那里我可以存储需要使用我的自定义应用程序在EC2实例上运行处理的数据。AWS EMR是我能找到的创建HDFS的唯一方法 ...

回答 2 投票 1

Filebeat中的YARN或HDFS日志。

如果我想把HDFS中的日志摄取到Filebeat中,我该怎么做?我可以指定本地驱动器上的任何目录,但我希望Filebeat从HDFS中提取数据。有没有...

回答 1 投票 3

我如何使用python从Azure Data Lake Gen 2读取文件?

我有一个文件躺在Azure Data lake gen 2文件系统中。我想读取文件的内容,并作出一些低级别的改变,即从记录中的几个字段删除几个字符。为了更 ...

回答 1 投票 0

Hadoop文件系统应该关闭吗?

我正在构建一个使用文件系统API向Hadoop写入数据的spring-boot供电服务。一些数据被写入到parquet文件中,大块数据被缓存在内存中,所以当服务关闭时,......

回答 1 投票 7

EKS集群中AWS EBS的HDFS Namenode格式问题

我有EKS集群和EBS存储类卷。我有elasticsearch集群与这个EBS存储(作为持久化volumepvc)运行良好。我正在尝试部署hdfs namenode镜像(bde2020hadoop-...

回答 1 投票 0

HDFS客户端拨号tcp:lookup xxx(my hostname) on 127.0.0.11:53: no such host(没有这个主机)

我使用golang lib(https:/github.comcolinmarchdfs)来与我的HDFS交互。当我使用client.CopyToRemote(src, dest)将本地文件复制到远程HDFS时,有时会在运行时出现这个错误。

回答 1 投票 0

在localhost127.0.0.1关闭NameNode。

当我在ECS上使用binhdfs namenode -format启动我的hadoop-2.10.0时,它不能工作。SHUTDOWN_MSG: Shutting down NameNode at localhost127.0.0.1 我修改了我的hosts文件,并添加了172.16.74.149 cong ...。

回答 1 投票 1

为什么我不能运行hadoop jar文件,每次我运行它都说它说类未找到异常 itemclick.itemclick.ItemClick?

我使用下面的代码和我使用下面的命令运行hadoop jar文件hadoop jar'homemanthanjainHadoop-click-analysisItemclick.jar' itemclick.itemclick.ItemClick 'Hadoop-click-...

回答 1 投票 0

hdfs + namenode + 编辑文件越来越大,如何限制编辑文件的大小?

我们的HDP集群有7台数据节点机器,在hadoophdfsnamenodecurrent下,我们可以看到超过1500个编辑文件,每个文件大约是7M到20M,如下7.8M的hadoophdfsnamenode。

回答 1 投票 0

distcp本地文件到hadoop

我有1Gb的文件在本地文件系统tmpdist_testfle,我可以复制它:hadoop fs -put file:/tmpdist_testfile maprfs:/,但不能distcp它。命令 hadoop distcp file:/tmpdist_testfile ...。

回答 1 投票 0

如何用bash脚本管理hdfs中的目录?

最近我试着写了一个bash脚本来管理hdfs中的一些目录,以便与kafka一起工作。假设在hdfs中我们有一个这样的目录:tmpmy_dirstate=a,当我列出这个...

回答 1 投票 0

WARN hdfs.DFSClient.DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException):WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException)。文件inrecipeitems-latest.json.ingeing_。

当我试图将json从本地路径复制到Hadoop文件分布式系统时,我遇到了一个问题。我已经按照这个链接http:/www.codeproject.com......中给出的步骤进行了编码。

回答 1 投票 1

如何提高Spark的性能?

我有一个Java程序,工作与大型数据集。该数据集存储在hdfs(csv)中。该程序工作正常,但它是非常缓慢的。程序要做的是:加载csv文件单独一行到String[]过滤器......。

回答 1 投票 0

如何在HDFS中用bash将带有元数据的文件列在一行?

我正在写一个bash脚本,用来扫描HDFS,并对输出结果进行处理。获取文件名很容易,如下: for line in $(hdfs dfs -ls -t -r -C -R $HDFS_CLEANING_STG); do ...

回答 1 投票 0

能否合并hdfs上的两个parquet目录?

我在HDFS上有两个相同模式的parquet目录。我想把这两个目录合并成一个parquet目录,以便能够创建一个外部的hive表。我已经上网查了我的 ...

回答 1 投票 0

一个行键可以存在多个hbase区域中吗?

按照我的理解,HBase表按行键范围横向划分为 "区域"。一个区域包含了该区域起始键和结束键之间的表中所有行。假设我有一个...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.