hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

一个行键可以存在多个hbase区域中吗?

按照我的理解,HBase表按行键范围横向划分为 "区域"。一个区域包含了该区域起始键和结束键之间的表中所有行。假设我有一个...

回答 1 投票 1

如何计算hdfs URI

如何弄清楚我的hdfs dfs命令连接的URI?有没有什么配置文件可以存储URI或任何命令可以用来显示它?我查了一下文档 ...

回答 1 投票 0

Tez View - "下载数据 "文件位置

在Ambari中,在Tez视图中,每个查询内的 "详细信息 "窗格有一个下载数据按钮。如果有人按了这个按钮,它就会下载一个大约1MB的压缩文件,比如说,"......"。

回答 1 投票 1

Hadoop Docker容器只能复制到0个节点,而不是minReplication(=1)。

我尝试了不同的Hadoop容器的docker镜像,但当我尝试将文件写入HDFS时,它们都不工作。我总是得到错误信息。Caused by: org.apache.hadoop.ipc.RemoteException(java.io...)。

回答 1 投票 0

使用pySpark从hdfs中读取部分文件到数据框中。

我有多个文件存储在一个hdfs位置,如下 userproject202005part-01798 userproject202005part-01799 有2000个这样的部分文件。每个文件的格式为{'Name': ...

回答 1 投票 0

Hadoop hdfs to elasticsearch

我如何从HDFS读取数据,然后将它们发送到Elasticsearch并显示在kibana仪表板上?我知道在ES-Hadoop中有一个连接器可以双向发送数据,但是......

回答 1 投票 0

如何计算hdfs URI

如何弄清楚我的hdfs dfs命令连接的URI?有没有什么配置文件可以存储URI或任何命令可以用来显示它?我查了一下文档 ...

回答 1 投票 1

sqoop如何避免从HDFS导出重复数据到RDBMS?

HDFS以复制的形式存储数据,当我们使用SQOOP将数据从HDFS移动到RDBMS时,sqoop如何避免将重复的数据从HDFS导出到RDBMS?

回答 1 投票 0

将Hive外部表的列名改为大写,并增加新的列。

我有一个外部表,例如dump_table,它是按年、月、日分区的。如果我运行show create table dump_table,我得到以下结果。CREATE EXTERNAL TABLE `dump_table` ( `... )

回答 1 投票 0

flume在我要推送的hdfs文件中添加了一个随机数(test.csv > test.csv.1591560702234)

当我把一个文件放在本地目录下(vagrantflumetest.csv),在HDFS中flume把它变成了(userinputstest.csv.1591560702234),我想知道为什么HDFS增加了1591560702234,如何删除它! ...

回答 1 投票 0

将消息从kafka存储到hdfs。

我正在使用confluent-Kafka与python。我想将Kafka连接到Hdfs,并将一些特定的数据直接存储在Hdfs中。我找到了confluent HDFS连接器,但我不知道如何将它与我的...

回答 1 投票 0

MapR-FS中文件读写的解剖结构图

我想了解MapR-FS中文件读写的解剖结构是什么?我上网查了很多,但没有得到明确的了解,在MapR-FS中文件读写的步骤是什么。我还...

回答 1 投票 1

Hive与Hadoop vs Hive与spark vs spark sql vs HDFS - 它们之间如何工作?

我有点困惑,我应该使用哪种组合来实现我的目标,我需要在HDFS中存储数据,并需要根据查询的数据进行分析。如果我使用...

回答 1 投票 -1

客户端无法通过认证。[TOKEN,KERBEROS)

从我的火花应用程序,我试图distcp从hdfs到s3。我的应用程序对数据进行了一些处理,并将数据写入hdfs,而这些数据我正试图通过descp推送到s3。我面临以下错误....

回答 1 投票 -1

在greenplum pxf外部表格中,当从对象的json数组中获取元素时,得到空字符串。

在使用pxf json插件创建外部表访问json数据时,以多行json表为例,当使用以下列定义 "coordinates.values[0]"INTEGER时,很容易从......中获取8。

回答 1 投票 0

错误:无法从JAR文件中加载主类:loudacrekbKBDOC-00299.html 无法从JAR文件:loudacrekbKBDOC-00299.html中加载主类,Spark错误。

我已经使用以下StackOverflow问题中可用的答案,使用SparkContext.stop(),或sc.stop().即使这样,我也得到了以下错误。该文件存在于指定的 ...

回答 1 投票 1

索引HDFS序列文件

为索引非常大的序列文件(数百万个键/值对,其中每个值可以具有不同的长度,因此您不能使用随机访问方案)的最佳库/方式是什么?

回答 1 投票 3

从具有子目录的HDFS目录中创建Impala表

我有一个目录,例如/ user / name / folder。在此文件夹中,我还有更多名为dt = 2020-06-01,dt = 2020-06-02,dt = 2020-06-03等的文件夹。这些文件夹包含实木复合地板文件。它们都有...

回答 1 投票 0

ADLS ACL规范不适用于Azure cli

我正在尝试运行以下命令来更新adls第1代中文件的访问控制列表,并且工作正常。 az dls fs访问设置条目--account dpreptestfiles --acl-spec用户:82095126-2a6c -...

回答 1 投票 0

spark.read.parquet与pyarrow.hdfs.connect()。read_parquet之间的区别是什么?

我有实木复合地板格式的hdfs文件,有两个选项可以读取它:spark.read.parquet(hdfs_path)pyarrow.hdfs.connect()。read_parquet(hdfs_path)请问我之间有什么区别。 。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.