hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

[由ambari添加连接器插件kafka

即时通讯是apache环境中的新功能,它让我真的很纳闷。我的kafka是通过ambari安装的。因此一切都可以通过ambari的GUI启动。当通过ambari安装kafka时...

回答 1 投票 0

hadoop(特别是HDFS文件)与ELK堆栈的集成

我正在尝试将hadoop与ELK堆栈集成。我的用例是“我必须从HDFS路径中存在的文件中获取数据并在kibana仪表板上显示内容” Hive在那儿无法正常工作,因此我无法...

回答 1 投票 0

Sqoop增量

Sqoop是否可以在数据类型为timestamp(6)的加载时间的基础上对Teradata进行增量加载?在hdfs中加载时如何处理格式:sql exxeption:-期望...

回答 1 投票 0

sqoop-数据导入期间作业失败

如果大数据导入作业之间的同步失败,将会发生什么情况。它会在作业失败发生之前将某些数据复制到hdfs上还是完全不复制任何内容?

回答 1 投票 0

当分区值是动态的时,如何使用sed / grep / awk从HDFS路径中提取分区值

我正在尝试将hdfs路径中的分区值保存到不同表的文件中,尝试使用sed拉最后8位数字,但由于分区值发生了变化(有时可能是YYYYMMDD ...

回答 1 投票 0

具有无盘计算节点的hadoop(HDFS)

我有一个小型集群,其中一个节点具有RAID存储,还有几个功能强大的无盘计算节点,它们通过PXE引导。所有节点均通过InfiniBand(以及用于引导的1G以太网)连接。我需要...

回答 1 投票 1

Flume HDFS接收器:从文件名中删除时间戳记

我已经为我的应用程序配置了水槽代理,其中源是Spooldir,接收器是HDFS,我能够在hdfs中收集文件。代理配置为:agent.sources = src-1 agent.channels = c1 ...

回答 2 投票 5

存储从融合kafka到hdfs python的消息

我正在将confluent-Kafka与python结合使用。我想将Kafka连接到Hdfs,并直接在Hdfs中存储一些特定的数据。我找到了融合的HDFS连接器,但是我没有如何将其与我的...

回答 1 投票 0

关于减少网络随机播放的提示

我有一个用例,其中我要在Spark,A和B中连接两个数据帧。A->大约较大的数据帧:100 TB B->大约较小的数据帧:100 MB两个问题:如何减少...] >

回答 1 投票 0

使用tf.io.gfile.makedirs后程序中止

pip install tensorflow == 1.14.0 TensorFlow版本:1.14.0 Python版本:3.6.8 Hadoop版本:Hadoop干线(hadoop-3.3.0-SNAPSHOT)LSB版本::core-4.1-amd64:core-4.1- noarch分发服务器ID:...

回答 1 投票 1

如何复制镶木地板文件并覆盖HDFS上的旧木地板文件

我的问题是,假设我们在HDFS上有两个镶木文件:file1.parquet和file2.parquet位于不同的路径,我想复制file1.parquet来替换file2.parquet。我使用了命令hdfs dfs -...

回答 1 投票 0


构建DNN模型后如何为具有新特征值的新案例预测类标签(0或1)?

我建立了DNN模型来预测乳腺癌患者的生存能力,我想预测新病例的类别标签(去世或存活),如何实施?总结:我想...

回答 1 投票 0

使用pySpark将hdfs中的分区文本文件读取到数据帧中

我在hdfs位置中存储了多个文件,如下所示/ user / project / 202005 / part-01798 / user / project / 202005 / part-01799有2000个这样的零件文件。每个文件的格式为{'Name':'...

回答 1 投票 0

具有连续摄取的HDFS文件压缩

我们在HDFS中的几张桌子越来越近。每天40k个新文件。我们需要每两周整理一次这些表格,为此我们需要停止摄取。我们有火花吸收...

回答 2 投票 1

如何在Scala中本机读取HDFS文本文件(不使用Spark)?

我知道我可以像这样读取Scala中的本地文件:import scala.io.Source val filename =“ laba01 / ml-100k / u.data” for(line

回答 1 投票 0

从HDFS路径中删除后缀为给定日期的日期后缀的文件| Unix

我的HDFS路径具有以下文件-/ test / abc / xyz / 2018-01-01 / test / abc / xyz / 2019-01-01 / test / abc / xyz / 2020-01-01 / test / abc / xyz / 2020-02-01 / test / abc / xyz / 2020-03-01如何删除较旧的文件...

回答 1 投票 -1

如何在不使用Hadoop的情况下读取HDFS上的Snappy压缩文件?

我正在以Snappy压缩格式将文件存储在HDFS上。我希望能够在本地Linux文件系统上检查这些文件,以确保创建它们的Hadoop进程已执行...

回答 3 投票 10

向HDFS火花写入缓慢

我在HDFS(非分区)上有ORC数据,约80亿行,大小为250GB。 Iam读取DF中的数据,使用partitionBy例如,在不进行y转换的情况下写入DF,而无需进行y转换:df.write.mode(“ overwrite”)....

回答 1 投票 0


© www.soinside.com 2019 - 2024. All rights reserved.