hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

除非PutHDFS在Apache的错误

尝试使用以下配置在Apache NiFi1.2.1上使用PutHDFS处理器; hadoop配置资源:/usr/local/hadoop-2.7.0/etc/hadoop/core-site.xml,/usr/local/hadoop-2.7.0/etc/hadoop / ...

回答 1 投票 0

如何使用spark java解压缩存储在hdfs中的文件

名单 list = jsc.wholeTextFiles(hdfsPath).keys()。collect(); for(String string:list){System.out.println(string);这里我得到所有的zip文件。从......

回答 3 投票 1

Hive - 巨大的10TB表重新分区(添加新的分区列)

技术人员,背景 - 我们有10TB现有的蜂巢表,它在A列上进行了范围分区。业务案例有变化,现在除了A列之外还需要添加分区列B.

回答 1 投票 0

你能用HDFS作为主存储吗?

将数据保存在Hadoop中并使用Spark / Hive等消耗它是否可靠?使用HDFS作为主存储有什么好处?

回答 2 投票 0

如何在使用`copyToLocal`时排除目录

我想从HDFS复制文件。我希望在复制文件时排除文件夹。我尝试了hdfs dfs -copyToLocal,但它也在我测试时复制目录。是否有任何方式/命令来复制文件,但......

回答 2 投票 0

最近24小时将文件从HDFS中的多个目录复制到本地

我有从HDFS到本地获取数据的问题。我有例如:/path/to/folder/report1/report1_2019_03_24-03_10*.csv /path/to/folder/report1/report1_2019_03_24-04_12*.csv ... / path / to / ...

回答 2 投票 7

无法使用密钥dfs.encryption.key.provider.uri找到uri来为CDH 5.4创建HDFS加密的keyProvider

CDH版本:CDH5.4.5问题:使用Hadoop CDH 5.4中提供的KMS启用HDFS加密时,将文件放入加密区时会出错。步骤:加密Hadoop的步骤为...

回答 1 投票 8

如何使用maven导入另一个包类?

我目前正在研究Hadoop分布式文件系统(HDFS)。我必须为我的工作修改一些代码。但是,我从另一个项目导入类时遇到了问题。例)目标类位于......

回答 1 投票 0

HDFS写入导致“CreateSymbolicLink错误(1314):客户端不保留所需的权限。”

试图从Apache Hadoop执行示例map reduce程序。地图缩小作业运行时,下面有例外。试过hdfs dfs -chmod 777 /但是没有解决问题。 15/03/10 13:13:10警告......

回答 7 投票 4

如何在HDFS上将火花数据帧保存到csv?

Spark版本:1.6.1,我使用pyspark API。 DataFrame:df,有两个colume。我试过:1:df.write.format('csv')。save(“hdfs://path/bdt_sum_vol.csv”)2:df.write.save('hdfs:// path / bdt_sum_vol ... 。

回答 1 投票 1

为什么HDFS使用协议缓冲区而不是Java序列化API进行序列化?

为什么HDFS使用协议缓冲区而不是Java序列化API?如果我想通过Java序列化将对象从数据节点发送到另一个数据节点怎么办?我试过几个......

回答 1 投票 1

无法使用json serde在hive上传json文件

我正在尝试使用json serde加载json文件。我已成功添加了serde jar文件。 1)我的json jar文件放在path / apps / hive / warehouse / lib /我运行此命令成功添加...

回答 1 投票 0

即使json数据包含架构和有效负载字段,kafka connect hdfs sink连接器也会失败

我正在尝试使用kafka connect hdfs sink connector将json数据从kafka移动到hdfs。即使kafka中的json数据有架构和有效负载kafka connect任务失败,错误org.apache ....

回答 1 投票 4

IllegalArgumentException,从s3而不是hdfs指定输入/输出时错误的FS

我一直在一个本地集群上运行我的Spark作业,该集群具有从输入读取的hdfs并且输出也被写入。现在我已经设置了一个AWS EMR和一个S3存储桶,我有我的输入和我......

回答 2 投票 1

当尝试从Java中读取HDFS中的文件时,“错误的FS ...期望:file:///”

我无法使用Java从HDFS读取文件:String hdfsUrl =“hdfs:// : “;配置配置=新配置();配置.set(”fs.defaultFS“,hdfsUrl); ...

回答 1 投票 6

Hadoop配置对象未指向hdfs文件系统

嗨,我正在尝试用Java创建小型Spark程序。我正在创建hadoop配置对象,如下所示:配置conf = new Configuration(false); conf.addResource(new Path(“/ dir / core -...

回答 3 投票 1

运行Apache Spark Job时由对等方重置连接

我们有两个HDP集群的设置让我们称它们为A和B.集群A节点:它包含总共20台商用机器。有20个数据节点。在配置namenode HA时,有一个活动的...

回答 1 投票 12

这是非侵入性的吗?

我想尝试使用apache flink,hadoop和solr进行非侵入式日志摄取,以便处理和索引它们并进行一些分析和查询。我正在考虑使用flink来获取数据......

回答 2 投票 0

重命名多个数据文件

我正在寻找重命名HDFS中的多个数据文件的解决方案,我已经说出26000个数据文件/data/sample/_file.json.zip具有相同的名称,并从文件的末尾删除.zip,如/ data / sample /。 ..

回答 2 投票 2

Pyspark:使用configParser读取HDFS上的属性文件

我正在使用ConfigParser来读取传递给我的pyspark程序的键值。当我从hadoop集群的边缘节点执行时,代码工作正常,配置文件在本地目录中...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.