hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

无法通过beeline访问hiveserver2

我正在尝试通过 apache/hive 的 Kompose 生成的 helm 图表的一部分在 Kind 中本地运行 hive。 我的 hiveserver2-deployment.yaml api版本:apps/v1 种类:部署 元数据: 注释...

回答 1 投票 0

有什么技术可以解决databricks中的倾斜数据吗?

我创建了倾斜数据来测试加盐方法,并尝试了三种不同的解决方案,但没有一个能够通过显着的运行时间改进来达到预期的结果。你能指导我最好的应用吗...

回答 1 投票 0

在 SQL 中创建十分位数

我试图将我的数据分成十分位数,但不是传统意义上的,因为维度是十分位数的基础。 我有 463 个独特的 it_score,范围从 316-900(我的维度),其中 1,29...

回答 1 投票 0

保持Hive收集中记录的顺序

我有一个HIVE表如下: 按 id 从测试订单中选择 id、id_2、val; 234 974 0.5 234 457 0.7 234 236 0.5 234 859 0.6 123 859 0.7 123 236 0.6 123 974 0.5 123 457 0.5 我正在努力收集...

回答 2 投票 0

运行 Hive 查询的 Python 脚本

任何人都可以指导我如何使用 Python 运行 .hql 查询。尝试了 Hiveutils lib,但它不存在于开发环境中。还有其他方法来执行查询吗?

回答 3 投票 0

如何缓存 Spark 会话终止后保留的数据帧

我是数据工程新手,所以这可能是一个基本问题。但我还没能澄清 - 语境 - 我有一个由 Azure 数据工厂管道每 10 分钟执行一次的 Spark 作业。 在每个

回答 1 投票 0

从函数中设置 HIVE 中的变量

我正在尝试将数据插入到 Hive 表中,该表的动态分区值需要是计算日期,但 Hive 的 PARTITION 子句似乎不支持表达式或函数。 我有一个...

回答 1 投票 0

选择随机行作为 Hive 中的聚合函数

我想按一列进行分组,然后从另一列中选择随机行。在 Presto 中,一切都是任意的。 例如。我的查询是: 选择a,任意(b) 来自富 分组依据 我如何在 Hive 中执行此操作? ...

回答 2 投票 0

hiveposeexplode 地图数据类型

我的数据结构如下所示: ID 购买名称 购买ID A001 {一:一} {一:1} A002 {A:a,B:b} {一:1,二,2} A003 {C:a} ...

回答 1 投票 0

在 hive 中数组成多行

我有一个配置单元表,其中包含示例行之一: A、B、[“11”、“12”、“13”]、[“1”、“2”] 第 3 列和第 4 列的数组长度有时相同,有时不同。 输出: A、B、11、1 A、B、12、2...

回答 1 投票 0

在 Spark SQL 中编写 SQL 与使用 Dataframe API

我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码,其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC(更改数据捕获),

回答 4 投票 0

Athena 无法使用 OpenCSVSerde 解析日期

我在 S3 上有一个非常简单的 csv 文件 “我”,“d”,“f”,“s” "1","2018-01-01","1.001","很棒的东西!" "2","2018-01-02","2.002","可怕的事情!" "3","2018-01-03","3.003","我是石油人" 我正在努力...

回答 3 投票 0

当收集到足够的行数时,如何让 Trino 提前停止?

我有一个 Hive 数据库,我正在通过 Trino 查询它的表。每个表都有许多分区。每当我执行类似查询时 SELECT * FROM my_table LIMIT 100; 它仍然会遍历所有分区

回答 1 投票 0

带有 Hive 连接的 Spring-boot-application 无法启动嵌入式 Tomcat

我使用Spring-Boot,想通过spring-data-hadoop 2.3.0.M1-hdp23将其连接到Hive。问题是,如果我将 hive-jdbc 添加到我的 pom.xml 中,我的应用程序将无法启动。错误日志(部分)是: ...

回答 5 投票 0

带有 Hive Metastore 的 Iceberg 不会在 Spark 中创建目录并使用默认值

我遇到了一些(意外?)行为:Spark 中的目录引用未反映在 Hive Metastore 中。我已经按照文档进行了Spark配置,

回答 1 投票 0

Ambari 如何管理 Apache hadoop

Ambari 是一个开源项目,但是 HDP 已经不再提供下载,那么 Ambari 如何管理 Apache Hadoop、Hive、Spark 等组件呢? Ambari 可以直接管理现有的 Hadoop

回答 1 投票 0

hive4 运行查询命令时出错 原因:java.lang.ExceptionInInitializerError: Exception java.lang.RuntimeException: java.lang.reflect

当我开始查询或插入数据时 我使用的是hive4 jdk17和hadoop3.4,它们已添加到hive的conf/hive-env.sh中 导出 HADOOP_OPTS="$HADOOP_OPTS --add-opens=java.base/java.util=ALL-U...

回答 1 投票 0

使用列本身的前一行值派生列?

操作 交易数量 累计数量 交易金额 购买成本 卖出比率 净成本 买 250 250 5000 5000 0 0 卖 100 150 3000 0 0.4 0 买 150 300 1500 1500 0 0 卖 225 75 4000 0 0.75 0

回答 1 投票 0

如何从 pyspark sql 上的大表中选择除其中 2 列之外的所有列?

在连接两个表时,我想从 databricks 上的 pyspark sql 上有许多列的大表中选择除其中 2 之外的所有列。 我的 pyspark sql: %sql 设置 hive.support.quoted.identifi...

回答 4 投票 0

Hive 表是从 Spark 创建的,但在 hive 中不可见

来自 Spark 使用: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存,我可以使用下面命令的 hadoop fs -ls /apps/hive/warehouse est 看到......

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.