hive 相关问题

Hive是Hadoop的数据仓库系统，可以简化数据汇总，即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制，用于将结构投影到此数据上，并使用类似SQL的语言HiveQL查询数据。

如何获取数据集匹配的行

我有一张表格，描述了产品的销售地点，如下：产品位置一个 1, 2, 3 乙 2 C 7,8,9,10 D 2,3,4 乙 7,8,9 我想要获得具有匹配两个或更多销售位置的产品...

sql hive

回答 1 投票 0

为目录中现有的 Iceberg 表注册新的元数据文件/快照 - Xtable

我目前正在使用名为 Apache Xtable 的相当新的软件包，它将一种开放表格式（iceberg、hudi、delta）的元数据转换为其余两种。这有效地允许

apache-spark hive metadata apache-iceberg data-lake

回答 1 投票 0

如何在 Hive 中运行 Groupby 和选择条件变量？

我希望根据以下条件选择条件：选择收入_十分位数，收入，福利， COUNT(*) FROM Income_dataset，其中收入 > 50000 AND 福利 < 2000; GROUP BY income_de...

sql hive hue

回答 1 投票 0

停止前一个会话后创建一个新的本地 Spark 会话：Spark 告诉我 Derby 并未停止

在我的单元测试中，我必须停止本地 Spark 会话并创建另一个会话（使用从上一个会话保存的元存储中的数据）。但是当创建另一个 Spark 会话时，它无法使用我的

apache-spark pyspark hive derby

回答 1 投票 0

暂时不支持MERGE INTO TABLE。在hadoop hive环境中尝试将数据合并到冰山表中时

我需要对我的冰山表执行合并操作。我在 Aws emr 设置上使用 jupyter 笔记本。 Spark：'3.4.1-amzn-2' Hadoop：3.3.6 Hive：3.1.3 EMR 版本：6.15.0 Scala：'版本 2.1...

apache-spark hadoop pyspark hive apache-iceberg

回答 1 投票 0

com.holdenkarau.spark.testing - java.lang.NoSuchFieldError：METASTOREURIS

我有一个spark scala应用程序，它使用以下版本。依赖项： org.apache.spark:spark-core_2.12:jar:3.3.2 org.apache.spark:spark-hive_2.12:jar:3.3.2 org.apache.hive:hive-common:jar:2.3...

java scala apache-spark hive scalatest

回答 1 投票 0

过滤特定列中的特定字符串，否则过滤另一列中的另一个字符串

manufacturer_status 组织年目标 ABC 2012年已达成 ABC 2014年部分的 ABC 2015年失败的 XYZ 2014年部分的 XYZ 2015年失败的 OPQ 2012年失败的我想要每个

sql database database-design hive hbase

回答 1 投票 0

SQL根据条件过滤行

我在实现根据 sql 中的条件获取特定行的用例方面面临挑战。我尝试了不同的选项，例如 where 或 LAG 函数。但无法打通。表 -

sql database database-design hive hbase

回答 1 投票 0

使用S3作为源创建冰山表

我目前正在开发一个小型设置，其中有 Iceberg、trino、hive Metastore 和 s3 的基本设置。我可以使用 trino CLI 在 s3 中创建 Iceberg 表。现在，我想使用

amazon-s3 hive trino apache-iceberg

回答 1 投票 0

无法通过beeline访问hiveserver2

我正在尝试通过 apache/hive 的 Kompose 生成的 helm 图表的一部分在 Kind 中本地运行 hive。我的 hiveserver2-deployment.yaml api版本：apps/v1 种类：部署元数据：注释...

docker hive beeline helmfile

回答 1 投票 0

有什么技术可以解决databricks中的倾斜数据吗？

我创建了倾斜数据来测试加盐方法，并尝试了三种不同的解决方案，但没有一个能够通过显着的运行时间改进来达到预期的结果。你能指导我最好的应用吗...

sql pyspark hive databricks aws-databricks

回答 1 投票 0

在 SQL 中创建十分位数

我试图将我的数据分成十分位数，但不是传统意义上的，因为维度是十分位数的基础。我有 463 个独特的 it_score，范围从 316-900（我的维度），其中 1,29...

sql hive percentile

回答 1 投票 0

保持Hive收集中记录的顺序

我有一个HIVE表如下：按 id 从测试订单中选择 id、id_2、val； 234 974 0.5 234 457 0.7 234 236 0.5 234 859 0.6 123 859 0.7 123 236 0.6 123 974 0.5 123 457 0.5 我正在努力收集...

hive hiveql

回答 2 投票 0

运行 Hive 查询的 Python 脚本

任何人都可以指导我如何使用 Python 运行 .hql 查询。尝试了 Hiveutils lib，但它不存在于开发环境中。还有其他方法来执行查询吗？

python hive hiveql

回答 3 投票 0

如何缓存 Spark 会话终止后保留的数据帧

我是数据工程新手，所以这可能是一个基本问题。但我还没能澄清 - 语境 - 我有一个由 Azure 数据工厂管道每 10 分钟执行一次的 Spark 作业。在每个

apache-spark caching hive persist

回答 1 投票 0

从函数中设置 HIVE 中的变量

我正在尝试将数据插入到 Hive 表中，该表的动态分区值需要是计算日期，但 Hive 的 PARTITION 子句似乎不支持表达式或函数。我有一个...

apache-spark apache-spark-sql hive

回答 1 投票 0

选择随机行作为 Hive 中的聚合函数

我想按一列进行分组，然后从另一列中选择随机行。在 Presto 中，一切都是任意的。例如。我的查询是：选择a，任意(b) 来自富分组依据我如何在 Hive 中执行此操作？ ...

sql hive

回答 2 投票 0

hiveposeexplode 地图数据类型

我的数据结构如下所示： ID 购买名称购买ID A001 {一：一} {一：1} A002 {A：a，B：b} {一：1，二，2} A003 {C：a} ...

arrays dictionary hive explode

回答 1 投票 0

在 hive 中数组成多行

我有一个配置单元表，其中包含示例行之一： A、B、[“11”、“12”、“13”]、[“1”、“2”] 第 3 列和第 4 列的数组长度有时相同，有时不同。输出： A、B、11、1 A、B、12、2...

arrays hive explode

回答 1 投票 0

在 Spark SQL 中编写 SQL 与使用 Dataframe API

我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码，其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC（更改数据捕获），

apache-spark pyspark apache-spark-sql hive hdfs

回答 4 投票 0

hive 相关问题

最新问题