Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。
Flink bucketing sink重启,保存点导致数据丢失
我正在使用从Kafka到HDFS的Flink bucketing sink。 Flink的版本是1.4.2。我发现每次重新启动作业时都会丢失一些数据,即使有保存点也是如此。我发现这个问题......
如果未在hdfs-site.xml中定义,那么将安装namenode和datanode的位置?
我的hdfs-site.xml只有以下内容: dfs.replication 1
我的HDFS中有大量数据(TB或PB),位于远程PC。现在我没有将数据转移到转换逻辑(这是不正确和有效的),而是想运行我的python ......
我正在尝试使用以下命令在HDFS中创建文件:import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path;为此,我添加了这样的配置:...
我们一直在运行生产等级系统,我们希望自动在AWS EMR中启动辅助名称节点。下面是辅助namenode守护程序未运行的jps的输出[root @ ...
在Java代码中,我想连接到HDFS中的目录,了解该目录中的文件数量,获取它们的名称并想要读取它们。我已经可以读取文件,但我无法弄清楚如何...
我在一台IP为192.168.1.109的计算机上成功安装并运行Hadoop(实际上它实际上是在虚拟机上运行的Ubuntu实例)。键入jps时显示2473 DataNode ...
我们正在使用具有复制因子3的Hortonworks HDP 2.1(HDFS 2.4)。我们最近退役了一个数据节点,并且在集群中留下了许多未复制的块。群集现在......
我刚刚下载了Hortonworks沙盒VM,里面有Hadoop版本2.7.1。我使用hadoop fs -put / hw1 / * / hw1 ...命令添加了一些文件。之后我删除添加的...
在缓存中找不到Hdfs委托令牌 - Spark应用程序中的错误
我在Spark版本2.3.0中有简单的Spark Streaming应用程序,它将每个已处理批处理的结果放在HDFS上。我的应用程序在部署模式客户端的YARN上运行,我正在使用kerberized ...
无论是从shell运行还是从python子进程运行,使用Sqoop从MySQL数据库获取数据都会产生不一致的结果。但是,我没有这个问题做同样的事情......
从HDFS目录中读取文件并使用Python在Spark中创建RDD
我有一些文本文件,我想使用这些文件创建一个RDD。文本文件存储在'Folder_1'和'Folder_2'中,这些文件夹存储在'text_data'文件夹中。当文件是......
我想在spark中读取CSV并将其转换为DataFrame并将其存储在HDFS中,并使用df.registerTempTable(“table_name”)我试过:scala> val df = sqlContext.load(“hdfs:/// csv / file / DIR / ...
我想写一个猪拉丁文字:我必须在1951年之后加载所有数据(1951年不包括在内)并过滤质量= 1的数据按温度分组数据,然后计算......
我想通过Hadoop客户端访问Google云端存储。我想在Google Cloud之外的机器上使用它。我按照这里的指示。我创建了服务帐户并生成了密钥文件。一世 ...
我在hortonworks和cloudera中设置hadoop文件权限时遇到问题。我的要求是:1。用新组创建一个新用户2.在hdfs中创建用户目录(例如/ user / myuser)...
Hbase错误“错误:KeeperErrorCode = / hbase / master的NoNode”
在hbase shell中执行任何命令时,我在hbase shell中收到以下错误“ERROR:KeeperErrorCode = NoNode for / hbase / master”。开始HBASE:HOSTCHND:hbase-2.0.0 gvm $ ./bin / ...
我有这样的数据文件1943 49 1 1975 91 L 1903 56 3 1909 52 3 1953 96 3 1912 82 1976 66 3 1913 35 1990 45 1 1927 92 A 1912 2 1924 22 1971 2 1959 94 E现在使用猪脚本我想要至 ...
我已经安装了hadoop 2.6.0,我正在玩它。我正在尝试伪分布式设置,我正按照http://hadoop.apache.org/docs/current/hadoop-project-dist / ...上的说明进行操作。
如何使用Python在HDFS中查看传入文件的目录? (Python脚本由Docker Container执行; HDFS中没有Cronjob)
场景:我的Python脚本在docker容器中运行,该容器部署在rancher(kubernetes集群)中。因此容器始终在运行。我想实现一个正在观察的方法......