hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

在哪里可以找到腐败块的复制品

我的hadoop集群中有一些损坏的块,我们使用的复制因子是3。我的理解是,即使一个块被破坏,我们将在其他节点中有两个更好的副本。什么时候 ...

回答 1 投票 0

从Scala / Spark中的HDFS读取文本文件

我正在使用Scala和Spark,并希望将XML文件作为单个字符串读入。我很难找到一个简洁的Scala-ish方法来做到这一点。我的第一个想法是使用val fileContents:RDD [String] = ...

回答 2 投票 0

为什么不能将元数据存储在HDFS中

为什么不能通过3次复制将元数据存储在HDFS中。为什么它存储在本地磁盘中?

回答 3 投票 0

蜂巢开始失败

我的本地主机上运行了一个hadoop。我尝试在我的localhost上设置配置单元并安装配置单元。当我在终端上放置蜂巢时,跟随错误即将到来/ ade:[ashsshar_bda_latest_2] [...

回答 6 投票 0

MapReduce和HDFS块大小

在关于Java for Hadoop的教科书中我读到:MapReduce中的Map任务通常一次只能在一个块上运行,所以如果你的任务太少(比集群中的节点少),你的作业会运行得更慢......

回答 1 投票 0

带有查询子句的Sqoop

我需要将一些数据从Oracle移动到Hive,我发现Sqoop可能是一个有用的工具。问题是我需要处理查询并将结果插入目标数据库中的表中。 ...

回答 2 投票 1

使用文件系统将数据从scala中的本地复制到远程hdfs位置时,hadoop权限被拒绝

线程“main”中的异常org.apache.hadoop.security.AccessControlException:Permission denied:user = practice,access = WRITE,inode =“/ user / rnd / data”:rnd:supergroup:drwxr-xr-x at org。 apache.hadoop ....

回答 1 投票 0

我可以像在MySQL中一样从文件创建Hive表

我可以像在MySQL和其他RDBMS中那样从sql / text文件创建Hive表。也就是说,将“create table ...”命令存储在.sql文件中并一次执行。例如。在MySQL中......

回答 2 投票 0

通过zeppelin从docker-hadoop-spark - workbench访问hdfs

我安装了https://github.com/big-data-europe/docker-hadoop-spark-workbench然后用docker-compose启动它。我导航到git自述文件中提到的各种网址,所有...

回答 1 投票 6

从HDFS加载keytab

我想将Oozie与需要使用Kerberos的Java Action一起使用。我在HDFS中有我的keytab。我怎么能说该文件是在HDFS中?配置conf = new Configuration(); conf.set(“Hadoop的....

回答 1 投票 0

从Spark中的scala中的* .tar.gz压缩文件中读取HDF5文件

在参考这篇文章后,我可以读取驻留在* .tar.gz文件中的多个* .txt文件。但是现在,我需要在* .tar.gz文件中读取HDF5文件。样本文件可以在这里下载,...

回答 1 投票 1

无法连接到远程计算机上的dfs namenode Web UI

我在CentOS远程服务器上安装了hadoop-2.7.1。遵循的步骤:https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html伪分布式操作I ...

回答 2 投票 0

将数据保存到HDFS的格式是什么?

创建DataFrame后,我可以将其保存为avro,csv或镶木地板格式。数据帧或rdd中是否还有其他格式可用于在Hadoop HDFS中保存数据?

回答 2 投票 1

Python写入hdfs文件

从本地python脚本在远程HDFS中创建/写入/更新文件的最佳方法是什么?我能够列出文件和目录,但写作似乎是一个问题。我搜索过hdfs和...

回答 1 投票 4

如何在群集上保存文件

我使用ssh连接到集群,我使用spark-submit --master yarn myProgram.py将程序发送到集群我想将结果保存在文本文件中,我尝试使用以下内容...

回答 4 投票 11

为什么单个测试失败并显示“错误XSDB6:另一个Derby实例可能已经启动了数据库”?

我使用Spark 1.6。我们有一个使用SqlContext写入HDFS的HDFS写入方法。现在我们需要切换到使用HiveContext。当我们这样做时,现有的单元测试不运行并给出错误...

回答 2 投票 1

Pyspark检查hdfs文件夹修改日期

我是pyspark的新手。从pyspark想知道是否有一些功能可以获得HDFS折叠修改日期?例如在HDFS中:在pyspark中:def get_user_folder_update_date():magic()返回update_time ...

回答 1 投票 0

AWS EMR性能HDFS与S3

在大数据中,代码被推向数据以供执行。这是有道理的,因为数据很大并且执行代码相对较小。来到AWS EMR,数据可以是HDFS或......

回答 3 投票 5

从hdfs读取zip文件并使用spark java解压缩

我在hdfs:// localhost:8020 / sample.zip上有一个zip。我需要读取并解压缩到目录hdfs:// localhost:8020 / sample。

回答 1 投票 -2

SparkR错误:HDFS上的root scratch dir:/ tmp / hive应该是可写的

我正在尝试初始化SparkR,但我收到了权限错误。我的Spark版本是spark-2.2.1-bin-hadoop2.6。我已经搜索了这个错误以及如何解决它,我发现了几个相关的...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.