Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。
我有一个文件a.csv.zst并且我创建了文本文件表。 当我在 hive 上选择时,我看到前 100 行没有错误,但是当我选择 count(*) 时,它给出错误未知帧描述符 我可以装饰...
失败:访问 Hive 视图时执行错误,从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 异常返回代码 2
我正在尝试访问 Hive 中的视图,出现以下异常: 获取日志线程被中断,因为查询已完成! 错误:处理语句时出错:FAILED:执行错误,返回
无法创建代理提供程序类 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
我正在尝试读取以检查 HDFS 上是否存在文件。我正在使用 Eclipse IDE,并且在类路径中拥有所有必需的 hadoop jar 和 hadoop 配置。当我执行程序时,我看到下面的内容
元数据错误:org.apache.thrift.transport.TTransportException
这个错误是什么意思? “元数据错误:org.apache.thrift.transport.TTransportException?” 在什么情况下会出现此错误? 我在创建表时遇到此错误,为什么...
我正在使用镶木地板工具来合并镶木地板文件。但 parquet-tools 似乎需要与合并文件一样大的内存。我们在 parquet-tools 中是否还有其他方法或可配置选项...
管道的主要座右铭是将数据从 Source 复制到 Sink。但是 Source 及其各自的 Sink 的数量不会恒定,这意味着它可能每天都会增加或减少。如何...
YARN Timeline Server .out 文件不旋转
Yarn Timeline Server 在 /var/log/hadoop-yarn 位置生成日志。我们看到两种类型的日志文件: hadoop-yarn-timelineserver-*.log* hadoop-yarn-timelineserver-*.out...
我正在为 Hadoop 构建自动安装脚本,但遇到了 HBase 无法启动的问题,因为 HDFS 尚未完全启动并准备就绪。我如何以编程方式(从 Bash、ide...
我有以下Java代码片段: 导入 org.ojai.Document; 公共类 JsonRepository { 公共对象 jsonStore; // 这个对象应该是什么类型 公共文档 createDocumen...
将 Spark Dataframe 作为 Apache Hudi 表写入具有对象锁的 S3 存储桶
我有一些数据集(CSV 和 Parquet 文件),我想将它们转换并构建为启用了对象锁定的 S3 存储桶中的 Hudi 表。 从 pyspark 的官方文档我了解到它
我被问到以下问题。 面试官:如何恢复hdfs中删除的文件。 我:我们可以从垃圾目录复制/移回原始目录。 采访者:除了...还有其他办法吗
我正在尝试运行 hadoop-streaming python 作业。 bin/hadoop jar contrib/streaming/hadoop-0.20.1-streaming.jar -Dstream.non.zero.exit.is.failure=true -输入/ixml -输出/oxml -映射器脚本...
从主机到 HDFS 的调用因连接异常 java.net.ConnectException 失败:连接被拒绝
我已经开始在 Ubuntu_16.04_LTS 机器上运行多节点集群。我有两台 Ubuntu_18.04_LTS 机器在虚拟机上运行。 我决定将本地机器作为主机运行,并在
我在我的操作系统 Windows 11 64 位的笔记本电脑上安装了 Spark 集群,并且运行顺利。 在本地计算机上保存数据帧时,我收到以下错误 - df.write.mode('
我想将新列添加到配置单元表中的特定位置。当我添加新列时,它会转到最后一个位置。
这就是例子。由此我想找到每个专业计数和每个年龄组计数。 filter_data = 按 loc=='us' 过滤客户; grunt> grp_data1 = 按年龄分组filter_data...
尝试通过spark Rest api提交pyspark作业但连接被拒绝
我正在使用 ubuntu 系统和版本 3.5.0 的 pyspark 我正在尝试使用curl -X Post 通过spark Rest api 提交作业。 我的文件位于“/home/arbind/spark/arbind/practice/masterslave1.jar”位置...
我正在码头工人终端上工作。我想从 docker 终端访问本地文件。有办法做到吗?提前致谢。 编辑:我有大量文件要访问 我尝试加载...
在 hadoop 集群上运行 Spark 管道时出现 java.lang.NoSuchFieldError: HIVE_LOCAL_TIME_ZONE 错误
我的java-spark代码是用Spark3.2.4和JDK1.8编写的,而运行时是2.11.12和JDK8。在触发火花提交之前,我将所有必要的罐子(uber-jar)捆绑在一起。我的行家有一个九月...
我刚刚安装了 PySpark,因为我不需要 Hadoop,PySpark 文档中不推荐它。所有人都安装 Hadoop 只是为了在本地计算机中保存镶木地板吗? 我的代码: 来自日期...