hadoop 相关问题

Hadoop是一个Apache开源项目，为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统（HDFS）和资源管理器（YARN）组成。各种其他开源项目，例如Apache Hive，使用Apache Hadoop作为持久层。

在 hive 上读取 zst 文件时出现未知的帧描述符？

我有一个文件a.csv.zst并且我创建了文本文件表。当我在 hive 上选择时，我看到前 100 行没有错误，但是当我选择 count(*) 时，它给出错误未知帧描述符我可以装饰...

hadoop hive apache-tez zstd

回答 1 投票 0

失败：访问 Hive 视图时执行错误，从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 异常返回代码 2

我正在尝试访问 Hive 中的视图，出现以下异常：获取日志线程被中断，因为查询已完成！错误：处理语句时出错：FAILED：执行错误，返回

sql apache-spark hadoop hive view

回答 1 投票 0

无法创建代理提供程序类 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

我正在尝试读取以检查 HDFS 上是否存在文件。我正在使用 Eclipse IDE，并且在类路径中拥有所有必需的 hadoop jar 和 hadoop 配置。当我执行程序时，我看到下面的内容

java hadoop

回答 1 投票 0

元数据错误：org.apache.thrift.transport.TTransportException

这个错误是什么意思？ “元数据错误：org.apache.thrift.transport.TTransportException？” 在什么情况下会出现此错误？我在创建表时遇到此错误，为什么...

hadoop hive bigdata cloudera-cdh

回答 2 投票 0

有效合并大镶木地板文件

我正在使用镶木地板工具来合并镶木地板文件。但 parquet-tools 似乎需要与合并文件一样大的内存。我们在 parquet-tools 中是否还有其他方法或可配置选项...

hadoop parquet

回答 2 投票 0

如何在Azure数据工厂中动态复制多个文件

管道的主要座右铭是将数据从 Source 复制到 Sink。但是 Source 及其各自的 Sink 的数量不会恒定，这意味着它可能每天都会增加或减少。如何...

azure hadoop azure-data-factory azure-databricks data-engineering

回答 1 投票 0

YARN Timeline Server .out 文件不旋转

Yarn Timeline Server 在 /var/log/hadoop-yarn 位置生成日志。我们看到两种类型的日志文件： hadoop-yarn-timelineserver-*.log* hadoop-yarn-timelineserver-*.out...

hadoop logging hadoop-yarn

回答 2 投票 0

如何让 HBase 等到 HDFS 准备好后再启动？

我正在为 Hadoop 构建自动安装脚本，但遇到了 HBase 无法启动的问题，因为 HDFS 尚未完全启动并准备就绪。我如何以编程方式（从 Bash、ide...

bash hadoop hbase hdfs

回答 2 投票 0

使用mapr实现请求

我有以下Java代码片段：导入 org.ojai.Document；公共类 JsonRepository { 公共对象 jsonStore; // 这个对象应该是什么类型公共文档 createDocumen...

java hadoop mapr

回答 1 投票 0

将 Spark Dataframe 作为 Apache Hudi 表写入具有对象锁的 S3 存储桶

我有一些数据集（CSV 和 Parquet 文件），我想将它们转换并构建为启用了对象锁定的 S3 存储桶中的 Hudi 表。从 pyspark 的官方文档我了解到它

python amazon-s3 hadoop pyspark apache-hudi

回答 1 投票 0

如何恢复hdfs删除的文件

我被问到以下问题。面试官：如何恢复hdfs中删除的文件。我：我们可以从垃圾目录复制/移回原始目录。采访者：除了...还有其他办法吗

hadoop hdfs

回答 2 投票 0

Hadoop Streaming - 无法找到文件错误

我正在尝试运行 hadoop-streaming python 作业。 bin/hadoop jar contrib/streaming/hadoop-0.20.1-streaming.jar -Dstream.non.zero.exit.is.failure=true -输入/ixml -输出/oxml -映射器脚本...

python streaming hadoop mapreduce

回答 9 投票 0

从主机到 HDFS 的调用因连接异常 java.net.ConnectException 失败：连接被拒绝

我已经开始在 Ubuntu_16.04_LTS 机器上运行多节点集群。我有两台 Ubuntu_18.04_LTS 机器在虚拟机上运行。我决定将本地机器作为主机运行，并在

java hadoop

回答 2 投票 0

winutls 适用于 Windows 11 64 位

我在我的操作系统 Windows 11 64 位的笔记本电脑上安装了 Spark 集群，并且运行顺利。在本地计算机上保存数据帧时，我收到以下错误 - df.write.mode('

python apache-spark github hadoop windows-11

回答 1 投票 0

Apache Hive：如何在表中的特定位置添加列

我想将新列添加到配置单元表中的特定位置。当我添加新列时，它会转到最后一个位置。

hadoop hive hiveql hiveddl

回答 2 投票 0

我如何找到猪中特定国家（例如美国）的每个专业计数和年龄计数

这就是例子。由此我想找到每个专业计数和每个年龄组计数。 filter_data = 按 loc=='us' 过滤客户； grunt> grp_data1 = 按年龄分组filter_data...

hadoop apache-pig

回答 1 投票 0

尝试通过spark Rest api提交pyspark作业但连接被拒绝

我正在使用 ubuntu 系统和版本 3.5.0 的 pyspark 我正在尝试使用curl -X Post 通过spark Rest api 提交作业。我的文件位于“/home/arbind/spark/arbind/practice/masterslave1.jar”位置...

apache-spark hadoop pyspark apache-spark-sql data-engineering

回答 1 投票 0

如何从docker容器访问本地系统文件？

我正在码头工人终端上工作。我想从 docker 终端访问本地文件。有办法做到吗？提前致谢。编辑：我有大量文件要访问我尝试加载...

docker ubuntu hadoop hive bigdata

回答 1 投票 0

在 hadoop 集群上运行 Spark 管道时出现 java.lang.NoSuchFieldError: HIVE_LOCAL_TIME_ZONE 错误

我的java-spark代码是用Spark3.2.4和JDK1.8编写的，而运行时是2.11.12和JDK8。在触发火花提交之前，我将所有必要的罐子（uber-jar）捆绑在一起。我的行家有一个九月...

apache-spark hadoop apache-spark-sql

回答 1 投票 0

如何将 PySpark 数据帧保存到 parquet 文件

我刚刚安装了 PySpark，因为我不需要 Hadoop，PySpark 文档中不推荐它。所有人都安装 Hadoop 只是为了在本地计算机中保存镶木地板吗？我的代码：来自日期...

python python-3.x apache-spark hadoop pyspark

回答 1 投票 0

hadoop 相关问题

最新问题