hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

如何获取数据集匹配的行

我有一张表格,描述了产品的销售地点,如下: 产品 位置 一个 1, 2, 3 乙 2 C 7,8,9,10 D 2,3,4 乙 7,8,9 我想要获得具有匹配两个或更多销售位置的产品...

回答 1 投票 0

为目录中现有的 Iceberg 表注册新的元数据文件/快照 - Xtable

我目前正在使用名为 Apache Xtable 的相当新的软件包,它将一种开放表格式(iceberg、hudi、delta)的元数据转换为其余两种。这有效地允许

回答 1 投票 0

如何在 Hive 中运行 Groupby 和选择条件变量?

我希望根据以下条件选择条件: 选择收入_十分位数,收入,福利, COUNT(*) FROM Income_dataset,其中收入 > 50000 AND 福利 < 2000; GROUP BY income_de...

回答 1 投票 0

停止前一个会话后创建一个新的本地 Spark 会话:Spark 告诉我 Derby 并未停止

在我的单元测试中,我必须停止本地 Spark 会话并创建另一个会话(使用从上一个会话保存的元存储中的数据)。 但是当创建另一个 Spark 会话时,它无法使用我的

回答 1 投票 0

暂时不支持MERGE INTO TABLE。在hadoop hive环境中尝试将数据合并到冰山表中时

我需要对我的冰山表执行合并操作。我在 Aws emr 设置上使用 jupyter 笔记本。 Spark:'3.4.1-amzn-2' Hadoop:3.3.6 Hive:3.1.3 EMR 版本:6.15.0 Scala:'版本 2.1...

回答 1 投票 0

com.holdenkarau.spark.testing - java.lang.NoSuchFieldError:METASTOREURIS

我有一个spark scala应用程序,它使用以下版本。 依赖项: org.apache.spark:spark-core_2.12:jar:3.3.2 org.apache.spark:spark-hive_2.12:jar:3.3.2 org.apache.hive:hive-common:jar:2.3...

回答 1 投票 0

过滤特定列中的特定字符串,否则过滤另一列中的另一个字符串

manufacturer_status 组织 年 目标 ABC 2012年 已达成 ABC 2014年 部分的 ABC 2015年 失败的 XYZ 2014年 部分的 XYZ 2015年 失败的 OPQ 2012年 失败的 我想要每个

回答 1 投票 0

SQL根据条件过滤行

我在实现根据 sql 中的条件获取特定行的用例方面面临挑战。我尝试了不同的选项,例如 where 或 LAG 函数。但无法打通。 表 -

回答 1 投票 0

使用S3作为源创建冰山表

我目前正在开发一个小型设置,其中有 Iceberg、trino、hive Metastore 和 s3 的基本设置。 我可以使用 trino CLI 在 s3 中创建 Iceberg 表。 现在,我想使用

回答 1 投票 0

无法通过beeline访问hiveserver2

我正在尝试通过 apache/hive 的 Kompose 生成的 helm 图表的一部分在 Kind 中本地运行 hive。 我的 hiveserver2-deployment.yaml api版本:apps/v1 种类:部署 元数据: 注释...

回答 1 投票 0

有什么技术可以解决databricks中的倾斜数据吗?

我创建了倾斜数据来测试加盐方法,并尝试了三种不同的解决方案,但没有一个能够通过显着的运行时间改进来达到预期的结果。你能指导我最好的应用吗...

回答 1 投票 0

在 SQL 中创建十分位数

我试图将我的数据分成十分位数,但不是传统意义上的,因为维度是十分位数的基础。 我有 463 个独特的 it_score,范围从 316-900(我的维度),其中 1,29...

回答 1 投票 0

保持Hive收集中记录的顺序

我有一个HIVE表如下: 按 id 从测试订单中选择 id、id_2、val; 234 974 0.5 234 457 0.7 234 236 0.5 234 859 0.6 123 859 0.7 123 236 0.6 123 974 0.5 123 457 0.5 我正在努力收集...

回答 2 投票 0

运行 Hive 查询的 Python 脚本

任何人都可以指导我如何使用 Python 运行 .hql 查询。尝试了 Hiveutils lib,但它不存在于开发环境中。还有其他方法来执行查询吗?

回答 3 投票 0

如何缓存 Spark 会话终止后保留的数据帧

我是数据工程新手,所以这可能是一个基本问题。但我还没能澄清 - 语境 - 我有一个由 Azure 数据工厂管道每 10 分钟执行一次的 Spark 作业。 在每个

回答 1 投票 0

从函数中设置 HIVE 中的变量

我正在尝试将数据插入到 Hive 表中,该表的动态分区值需要是计算日期,但 Hive 的 PARTITION 子句似乎不支持表达式或函数。 我有一个...

回答 1 投票 0

选择随机行作为 Hive 中的聚合函数

我想按一列进行分组,然后从另一列中选择随机行。在 Presto 中,一切都是任意的。 例如。我的查询是: 选择a,任意(b) 来自富 分组依据 我如何在 Hive 中执行此操作? ...

回答 2 投票 0

hiveposeexplode 地图数据类型

我的数据结构如下所示: ID 购买名称 购买ID A001 {一:一} {一:1} A002 {A:a,B:b} {一:1,二,2} A003 {C:a} ...

回答 1 投票 0

在 hive 中数组成多行

我有一个配置单元表,其中包含示例行之一: A、B、[“11”、“12”、“13”]、[“1”、“2”] 第 3 列和第 4 列的数组长度有时相同,有时不同。 输出: A、B、11、1 A、B、12、2...

回答 1 投票 0

在 Spark SQL 中编写 SQL 与使用 Dataframe API

我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码,其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC(更改数据捕获),

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.