Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。
我按照以下说明安装配置单元时出现以下错误 Hive 1.2.1 和 hadoop 1.2.1 定义HADOOP_HOME和java_home 执行: bin/hive -hiveconf java.io.tmpdir=/tmp 错误:
是否可以从 Trino 查询 MAPR hdfs/hive 表?
我正在寻找是否可以在 Trino 中查询 MAPR HDFS/Hive 表。 我可以显示架构,显示架构中的表,但是当我查询时它失败 查询 20240322_183127_00015_qjm4d 失败:失败...
我们可以在hive表中创建一个同时具有分区和分桶功能的列吗? 我很困惑我们如何使用它 我的配置单元表中有按日期分区的数据。由于一天的数据量很大,我想要
使用正则表达式分隔符将数据加载到 Hive 表时获取额外的空值
我在hdfs上的一个文件中有以下5行数据。我想将其加载到表中。我有正则表达式可以做到这一点,但它为每行数据加载一行额外的空值。有谁知道吗...
hadoop/hive 新手,需要将一组行缩减为映射数据类型,如下所示; 从 第 1 列 第2栏 杰夫 史密斯 史蒂夫 棕色的 到 第 1 列 第2栏 1 {“杰夫”:“史密斯”},{“圣...
在 hive 中将 varchar(7) 转换为十进制 (7,5)
我有一个像配置单元表中的值 0050000 0100000 0005000 我想将其转换为十进制(7,5) 我试过 SELECT CAST(column_A AS DECIMAL(7,5)) AS Converted_column FROM 表名; 但是笑...
有一张游客表,记录了7月份某个地方的游客数量 ID 访问日期 1 2017-07-01 100 …… id 的值等于日期列中 day 的值...
我的 COD 列如下: 化学需氧量 跨太平洋伙伴关系协定 电话_9985 短信@TELL-1256 短信@123 我想提取数值之前的所有字符,期望结果是: 化学需氧量 跨太平洋伙伴关系协定 电话 短信@告诉 文本 我试过没有
我有一列包含日期作为字符串,但有多种格式,例如 - dd/MM/yy、dd/MMM/yyy .. 等等。我使用以下代码将所有字符串转换为一种特定的日期格式(yyyy-...
Spark-Hive 应用程序:集群上的 SASL 与 Kerberos 协商失败
我在 Kerberos 集群上运行的 Spark-Hive 应用程序遇到问题。我收到 javax.security.sasl.SaslException:GSS 启动失败错误,这似乎是由于未找到 ...
我正在尝试从网络表中查找某人访问过的先前页面。我使用滞后函数来查找该人访问过的先前页面(仅当访问了下一页时)。 网络表格...
错误:java.net.NoRouteToHostException没有到主机的路由
我在配置单元中从客户中运行 select * 并得到结果。 现在,当我运行 select count(*)customers 时,作业状态失败。在 JobHistory 中我发现了 4 个失败的地图。 在地图日志文件中我有...
有一列名称为request_time,其数据类型为字符串。数据类似于 01-03-2024 16:58:44。我想将其转换为配置单元中的时间戳。我已经尝试过一些事情,例如: 选择
Apache hive:如何获取表达式的数据类型?是否有一些 Spark typeof 或 PostgresSQL pg_typeof 函数的类似函数?
Apache Spark 中的 typeof 和 PostgreSQL 中的 pg_typeof 函数可以获取任何值或表达式的数据类型,例如 选择类型(1=1) ╭────────────────────╮ │ typeof((1 = 1)) │ ├────────────……
我正在运行以下查询: 选择a.event_date, date_format(date_trunc('month', a.event_date), '%m/%d/%Y') 作为日期 来自monthly_test_table a 按 1 排序; 输出: 2017-09-15 | 2017年9月1日 2017...
将 presto 连接到 hive-hadoop3 时出现问题
我的集群上有 hadoop 3.1.2 和 hive 3.1.2,我想使用 presto-server-0.265.1 连接到 hive。 我在 /opt/presto/etc/catalog 中只有一个目录文件,这里的 hive.properties 是: 连接器。
SQL 语句错误: AnalysisException: 未找到表或视图:
我刚刚开始使用 Hive。我正在 Databricks 社区工作。我用 python 编写,但想用 SQL 编写一些东西,但有一个我无法理解的错误。我看不出我有什么问题...
我正在尝试使用 Athena 查询 AWS S3 库存列表。如果我只有一个源存储桶,我就可以执行此操作。我不确定如何配置它以与多个源存储桶一起使用。 我们正在使用所有
我有一个名为“old_table”的表,它是一个外部表,它有8列,分别是姓名、地点、出生日期、爱好、学校、性别、班级、详细信息。这里的详细信息列是一个结构体数组类型,例如...
我有多个蜂巢仓库。数据驻留在 Amazon S3 中的 parquet 文件中。有些表包含 TB 的数据。目前,在 hive 中,大多数表都是按月份和...