hdfs 相关问题

Hadoop分布式文件系统（HDFS）是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本，并将它们分布在整个集群中的数据节点上，以实现可靠的计算，并计算商用硬件上的大量数据。

Flink bucketing sink重启，保存点导致数据丢失

我正在使用从Kafka到HDFS的Flink bucketing sink。 Flink的版本是1.4.2。我发现每次重新启动作业时都会丢失一些数据，即使有保存点也是如此。我发现这个问题......

apache hadoop hdfs apache-flink

回答 1 投票 0

如果未在hdfs-site.xml中定义，那么将安装namenode和datanode的位置？

我的hdfs-site.xml只有以下内容： dfs.replication 1

hadoop hdfs namenode hadoop3

回答 1 投票 2

如何在远程PC上的HDFS数据上运行任何转换逻辑

我的HDFS中有大量数据（TB或PB），位于远程PC。现在我没有将数据转移到转换逻辑（这是不正确和有效的），而是想运行我的python ......

python apache-spark hdfs remote-access

回答 1 投票 0

Hadoop身份验证与Kerberos错误

我正在尝试使用以下命令在HDFS中创建文件：import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path;为此，我添加了这样的配置：...

java hadoop hdfs kerberos

回答 3 投票 0

如何在AWS EMR中启动辅助Namenode

我们一直在运行生产等级系统，我们希望自动在AWS EMR中启动辅助名称节点。下面是辅助namenode守护程序未运行的jps的输出[root @ ...

hdfs amazon-emr

回答 1 投票 2

HDFS目录中的文件计数

在Java代码中，我想连接到HDFS中的目录，了解该目录中的文件数量，获取它们的名称并想要读取它们。我已经可以读取文件，但我无法弄清楚如何...

java hadoop hdfs

回答 5 投票 19

尽管服务已经启动，但不允许远程访问namenode。

我在一台IP为192.168.1.109的计算机上成功安装并运行Hadoop（实际上它实际上是在虚拟机上运行的Ubuntu实例）。键入jps时显示2473 DataNode ...

java ubuntu hadoop hdfs netstat

回答 4 投票 4

如何减少HDFS目录中的复制因子及其影响

我们正在使用具有复制因子3的Hortonworks HDP 2.1（HDFS 2.4）。我们最近退役了一个数据节点，并且在集群中留下了许多未复制的块。群集现在......

hadoop hdfs hortonworks-data-platform

回答 1 投票 2

如何从HDFS中删除文件？

我刚刚下载了Hortonworks沙盒VM，里面有Hadoop版本2.7.1。我使用hadoop fs -put / hw1 / * / hw1 ...命令添加了一些文件。之后我删除添加的...

hadoop hdfs hortonworks-data-platform

回答 5 投票 19

在缓存中找不到Hdfs委托令牌 - Spark应用程序中的错误

我在Spark版本2.3.0中有简单的Spark Streaming应用程序，它将每个已处理批处理的结果放在HDFS上。我的应用程序在部署模式客户端的YARN上运行，我正在使用kerberized ...

hadoop hdfs spark-streaming yarn kerberos

回答 1 投票 3

与Sqoop不一致的结果

无论是从shell运行还是从python子进程运行，使用Sqoop从MySQL数据库获取数据都会产生不一致的结果。但是，我没有这个问题做同样的事情......

python python-2.7 shell hdfs sqoop

回答 1 投票 0

从HDFS目录中读取文件并使用Python在Spark中创建RDD

我有一些文本文件，我想使用这些文件创建一个RDD。文本文件存储在'Folder_1'和'Folder_2'中，这些文件夹存储在'text_data'文件夹中。当文件是......

python hadoop apache-spark hdfs yarn

回答 1 投票 0

Spark - 将CSV文件加载为DataFrame？

我想在spark中读取CSV并将其转换为DataFrame并将其存储在HDFS中，并使用df.registerTempTable（“table_name”）我试过：scala> val df = sqlContext.load（“hdfs：/// csv / file / DIR / ...

scala apache-spark hadoop apache-spark-sql hdfs

回答 10 投票 102

用年加载猪的数据时出错

我想写一个猪拉丁文字：我必须在1951年之后加载所有数据（1951年不包括在内）并过滤质量= 1的数据按温度分组数据，然后计算......

hadoop hdfs apache-pig

回答 1 投票 0

从云外部使用Hadoop客户端访问GCS

我想通过Hadoop客户端访问Google云端存储。我想在Google Cloud之外的机器上使用它。我按照这里的指示。我创建了服务帐户并生成了密钥文件。一世 ...

google-cloud-platform hdfs google-cloud-storage

回答 2 投票 0

hadoop用户文件权限

我在hortonworks和cloudera中设置hadoop文件权限时遇到问题。我的要求是：1。用新组创建一个新用户2.在hdfs中创建用户目录（例如/ user / myuser）...

hadoop permissions hdfs cloudera hortonworks-data-platform

回答 2 投票 4

Hbase错误“错误：KeeperErrorCode = / hbase / master的NoNode”

在hbase shell中执行任何命令时，我在hbase shell中收到以下错误“ERROR：KeeperErrorCode = NoNode for / hbase / master”。开始HBASE：HOSTCHND：hbase-2.0.0 gvm $ ./bin / ...

hadoop hbase hdfs apache-zookeeper

回答 2 投票 0

使用pig从数据文件中删除坏数据

我有这样的数据文件1943 49 1 1975 91 L 1903 56 3 1909 52 3 1953 96 3 1912 82 1976 66 3 1913 35 1990 45 1 1927 92 A 1912 2 1924 22 1971 2 1959 94 E现在使用猪脚本我想要至 ...

hadoop hdfs apache-pig

回答 1 投票 0

HDFS错误放置：`input'：没有这样的文件或目录

我已经安装了hadoop 2.6.0，我正在玩它。我正在尝试伪分布式设置，我正按照http：//hadoop.apache.org/docs/current/hadoop-project-dist / ...上的说明进行操作。

hadoop mapreduce hdfs hadoop2

回答 7 投票 6

如何使用Python在HDFS中查看传入文件的目录？（Python脚本由Docker Container执行; HDFS中没有Cronjob）

场景：我的Python脚本在docker容器中运行，该容器部署在rancher（kubernetes集群）中。因此容器始终在运行。我想实现一个正在观察的方法......

python docker hdfs

回答 1 投票 -2

hdfs 相关问题

最新问题