hive 相关问题

Hive是Hadoop的数据仓库系统，可以简化数据汇总，即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制，用于将结构投影到此数据上，并使用类似SQL的语言HiveQL查询数据。

我正在尝试通过 apache/hive 的 Kompose 生成的 helm 图表的一部分在 Kind 中本地运行 hive。我的 hiveserver2-deployment.yaml api版本：apps/v1 种类：部署元数据：注释...

docker hive beeline helmfile

回答 1 投票 0

有什么技术可以解决databricks中的倾斜数据吗？

我创建了倾斜数据来测试加盐方法，并尝试了三种不同的解决方案，但没有一个能够通过显着的运行时间改进来达到预期的结果。你能指导我最好的应用吗...

sql pyspark hive databricks aws-databricks

回答 1 投票 0

在 SQL 中创建十分位数

我试图将我的数据分成十分位数，但不是传统意义上的，因为维度是十分位数的基础。我有 463 个独特的 it_score，范围从 316-900（我的维度），其中 1,29...

sql hive percentile

回答 1 投票 0

保持Hive收集中记录的顺序

我有一个HIVE表如下：按 id 从测试订单中选择 id、id_2、val； 234 974 0.5 234 457 0.7 234 236 0.5 234 859 0.6 123 859 0.7 123 236 0.6 123 974 0.5 123 457 0.5 我正在努力收集...

hive hiveql

回答 2 投票 0

运行 Hive 查询的 Python 脚本

任何人都可以指导我如何使用 Python 运行 .hql 查询。尝试了 Hiveutils lib，但它不存在于开发环境中。还有其他方法来执行查询吗？

python hive hiveql

回答 3 投票 0

如何缓存 Spark 会话终止后保留的数据帧

我是数据工程新手，所以这可能是一个基本问题。但我还没能澄清 - 语境 - 我有一个由 Azure 数据工厂管道每 10 分钟执行一次的 Spark 作业。在每个

apache-spark caching hive persist

回答 1 投票 0

从函数中设置 HIVE 中的变量

我正在尝试将数据插入到 Hive 表中，该表的动态分区值需要是计算日期，但 Hive 的 PARTITION 子句似乎不支持表达式或函数。我有一个...

apache-spark apache-spark-sql hive

回答 1 投票 0

选择随机行作为 Hive 中的聚合函数

我想按一列进行分组，然后从另一列中选择随机行。在 Presto 中，一切都是任意的。例如。我的查询是：选择a，任意(b) 来自富分组依据我如何在 Hive 中执行此操作？ ...

sql hive

回答 2 投票 0

hiveposeexplode 地图数据类型

我的数据结构如下所示： ID 购买名称购买ID A001 {一：一} {一：1} A002 {A：a，B：b} {一：1，二，2} A003 {C：a} ...

arrays dictionary hive explode

回答 1 投票 0

在 hive 中数组成多行

我有一个配置单元表，其中包含示例行之一： A、B、[“11”、“12”、“13”]、[“1”、“2”] 第 3 列和第 4 列的数组长度有时相同，有时不同。输出： A、B、11、1 A、B、12、2...

arrays hive explode

回答 1 投票 0

在 Spark SQL 中编写 SQL 与使用 Dataframe API

我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码，其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC（更改数据捕获），

apache-spark pyspark apache-spark-sql hive hdfs

回答 4 投票 0

Athena 无法使用 OpenCSVSerde 解析日期

我在 S3 上有一个非常简单的 csv 文件 “我”，“d”，“f”，“s” "1","2018-01-01","1.001","很棒的东西！" "2","2018-01-02","2.002","可怕的事情！" "3","2018-01-03","3.003","我是石油人" 我正在努力...

csv hive opencsv amazon-athena presto

回答 3 投票 0

当收集到足够的行数时，如何让 Trino 提前停止？

我有一个 Hive 数据库，我正在通过 Trino 查询它的表。每个表都有许多分区。每当我执行类似查询时 SELECT * FROM my_table LIMIT 100；它仍然会遍历所有分区

sql hive bigdata trino

回答 1 投票 0

带有 Hive 连接的 Spring-boot-application 无法启动嵌入式 Tomcat

我使用Spring-Boot，想通过spring-data-hadoop 2.3.0.M1-hdp23将其连接到Hive。问题是，如果我将 hive-jdbc 添加到我的 pom.xml 中，我的应用程序将无法启动。错误日志（部分）是： ...

spring tomcat jdbc hive spring-data

回答 5 投票 0

带有 Hive Metastore 的 Iceberg 不会在 Spark 中创建目录并使用默认值

我遇到了一些（意外？）行为：Spark 中的目录引用未反映在 Hive Metastore 中。我已经按照文档进行了Spark配置，

python apache-spark hive hive-metastore apache-iceberg

回答 1 投票 0

Ambari 如何管理 Apache hadoop

Ambari 是一个开源项目，但是 HDP 已经不再提供下载，那么 Ambari 如何管理 Apache Hadoop、Hive、Spark 等组件呢？ Ambari 可以直接管理现有的 Hadoop

apache-spark hadoop hive ambari

回答 1 投票 0

hive4 运行查询命令时出错原因：java.lang.ExceptionInInitializerError: Exception java.lang.RuntimeException: java.lang.reflect

当我开始查询或插入数据时我使用的是hive4 jdk17和hadoop3.4，它们已添加到hive的conf/hive-env.sh中导出 HADOOP_OPTS="$HADOOP_OPTS --add-opens=java.base/java.util=ALL-U...

hive

回答 1 投票 0

使用列本身的前一行值派生列？

操作交易数量累计数量交易金额购买成本卖出比率净成本买 250 250 5000 5000 0 0 卖 100 150 3000 0 0.4 0 买 150 300 1500 1500 0 0 卖 225 75 4000 0 0.75 0

sql hive impala

回答 1 投票 0

如何从 pyspark sql 上的大表中选择除其中 2 列之外的所有列？

在连接两个表时，我想从 databricks 上的 pyspark sql 上有许多列的大表中选择除其中 2 之外的所有列。我的 pyspark sql： %sql 设置 hive.support.quoted.identifi...

python sql apache-spark pyspark hive

回答 4 投票 0

Hive 表是从 Spark 创建的，但在 hive 中不可见

来自 Spark 使用： DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存，我可以使用下面命令的 hadoop fs -ls /apps/hive/warehouse est 看到......

apache-spark hive hiveql hivecontext

回答 4 投票 0

hive 相关问题

最新问题