Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。
我的hadoop集群中有一些损坏的块,我们使用的复制因子是3。我的理解是,即使一个块被破坏,我们将在其他节点中有两个更好的副本。什么时候 ...
我正在使用Scala和Spark,并希望将XML文件作为单个字符串读入。我很难找到一个简洁的Scala-ish方法来做到这一点。我的第一个想法是使用val fileContents:RDD [String] = ...
我的本地主机上运行了一个hadoop。我尝试在我的localhost上设置配置单元并安装配置单元。当我在终端上放置蜂巢时,跟随错误即将到来/ ade:[ashsshar_bda_latest_2] [...
在关于Java for Hadoop的教科书中我读到:MapReduce中的Map任务通常一次只能在一个块上运行,所以如果你的任务太少(比集群中的节点少),你的作业会运行得更慢......
我需要将一些数据从Oracle移动到Hive,我发现Sqoop可能是一个有用的工具。问题是我需要处理查询并将结果插入目标数据库中的表中。 ...
使用文件系统将数据从scala中的本地复制到远程hdfs位置时,hadoop权限被拒绝
线程“main”中的异常org.apache.hadoop.security.AccessControlException:Permission denied:user = practice,access = WRITE,inode =“/ user / rnd / data”:rnd:supergroup:drwxr-xr-x at org。 apache.hadoop ....
我可以像在MySQL和其他RDBMS中那样从sql / text文件创建Hive表。也就是说,将“create table ...”命令存储在.sql文件中并一次执行。例如。在MySQL中......
通过zeppelin从docker-hadoop-spark - workbench访问hdfs
我安装了https://github.com/big-data-europe/docker-hadoop-spark-workbench然后用docker-compose启动它。我导航到git自述文件中提到的各种网址,所有...
我想将Oozie与需要使用Kerberos的Java Action一起使用。我在HDFS中有我的keytab。我怎么能说该文件是在HDFS中?配置conf = new Configuration(); conf.set(“Hadoop的....
从Spark中的scala中的* .tar.gz压缩文件中读取HDF5文件
在参考这篇文章后,我可以读取驻留在* .tar.gz文件中的多个* .txt文件。但是现在,我需要在* .tar.gz文件中读取HDF5文件。样本文件可以在这里下载,...
无法连接到远程计算机上的dfs namenode Web UI
我在CentOS远程服务器上安装了hadoop-2.7.1。遵循的步骤:https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html伪分布式操作I ...
创建DataFrame后,我可以将其保存为avro,csv或镶木地板格式。数据帧或rdd中是否还有其他格式可用于在Hadoop HDFS中保存数据?
从本地python脚本在远程HDFS中创建/写入/更新文件的最佳方法是什么?我能够列出文件和目录,但写作似乎是一个问题。我搜索过hdfs和...
我使用ssh连接到集群,我使用spark-submit --master yarn myProgram.py将程序发送到集群我想将结果保存在文本文件中,我尝试使用以下内容...
为什么单个测试失败并显示“错误XSDB6:另一个Derby实例可能已经启动了数据库”?
我使用Spark 1.6。我们有一个使用SqlContext写入HDFS的HDFS写入方法。现在我们需要切换到使用HiveContext。当我们这样做时,现有的单元测试不运行并给出错误...
我是pyspark的新手。从pyspark想知道是否有一些功能可以获得HDFS折叠修改日期?例如在HDFS中:在pyspark中:def get_user_folder_update_date():magic()返回update_time ...
在大数据中,代码被推向数据以供执行。这是有道理的,因为数据很大并且执行代码相对较小。来到AWS EMR,数据可以是HDFS或......
我在hdfs:// localhost:8020 / sample.zip上有一个zip。我需要读取并解压缩到目录hdfs:// localhost:8020 / sample。
SparkR错误:HDFS上的root scratch dir:/ tmp / hive应该是可写的
我正在尝试初始化SparkR,但我收到了权限错误。我的Spark版本是spark-2.2.1-bin-hadoop2.6。我已经搜索了这个错误以及如何解决它,我发现了几个相关的...