Apache Hive数据仓库基础结构中使用的SQL变体。将此标记用于与Hive查询语言相关的问题,包括HiveQL语法和HiveQL特定的函数。
我正在将对字段(使用percentile(,0.25 ..)函数)进行第25、50和75%百分位计算的配置单元查询转换为mysql查询,并停留在percentile函数上。我尝试过...
编译语句时出错:失败:SemanticException [错误10002]-使用MAX ON HIVE进行选择
我正在尝试执行此选择以仅返回我正在使用HIVE的最新插入记录co_junta_comer和co_informacao可以重复,但是é需要最新记录select * from ...
我想跟踪某人在往返火车上在每个火车站花费的时间。假设我的位置数据是通过不频繁的ping生成的,所以有人可以ping两次或五次...
[假设,昨天我加载了partition_dates的数据:01-01、02-01至10-01。今天,当我加载数据时,我看到的partition_dates为:01-01、03-01至11-01,表示02-01。分区不可用。 ...
查询用户出现在表中的前48小时活动(HiveQL / SQL)
我正在使用一个Hive表,该表代表网站上的访问量,并包含诸如user_id,day和event之类的列。我也有一个单独的user_ids列表,我正在尝试为...
长话短说,我将一些数据分组为不同的段,并注意到在一列中的迁移使用NTILE(10)OVER(ORDER BY column_name DESC)分成了十进制。大约50%...
hive UDF-将StringObjectInspector转换为String
我正在编写通用UDF。如果我直接使用UDF,那么它可以工作,但是,如果我将UDF与其他函数(distinct,max,min)一起使用,它甚至不会调用评估函数。我想看看发生了什么,所以...
如何在where子句中添加冗余的真实条件以提高Hive查询性能?
让我举例说明。我们有一个包含100万条记录的表,其中有几列。注意where子句中的dt条件。创建表tbl作为select * from some_table where dt&...
我有一些数据(来自全表的样本),看起来像这样:| prov_id | hotel_id | m_id | apis_xml | company_id | yyyy_mm_dd | | --------- | ---------- | ------ | ---------- | ---------- -| ------------ | | ...
我总体上不熟悉SQL或HIVE或Athena。我有下表col_id,col_list ABC,[abcde,123gd,12345,...] B3C,[bbbbb,ergdg,12345,...] YUT,[uyteh,bbbbb,...
我具有下表,其中包含我的sql查询结果的输出未提供我想要查看的输出(我在pyspark中执行此操作,因此是sive版本的sql):这是...
我正在处理一个数据项目,我正在使用EMR集群进行数据处理。我的AWS环境受到限制,不允许我使用EMR管理安全组。为此,我需要自定义列表...
PySpark:根据其他列值与某些特定值匹配的条件选择一个列,然后将匹配结果创建为新列
我之前问过相似性问题,但是由于某些原因,很遗憾我不得不在PySpark中重新实现它。例如,app col1 app1有人爱我吗? app2我讨厌u app3这个...
我试图在配置单元中编写查询,以返回连续年份和间隔年份(如果年份之间存在间隔)的年份范围的数据。我想让我的头...
Hive查询:根据其他列值与某些特定值匹配的条件选择一个列,然后将匹配结果创建为新列
我必须在HiveQL中进行一些查询和创建列操作。例如,app col1 app1有人爱我吗? app2我讨厌你app3这顶帽子很好app4我不喜欢这个app5 ...
我有以下WHERE子句:NOT(除法='Freemium'AND team = 999并且触摸IS NULL)我希望这与以下内容相同:no WHERE子句减(除法(除法='Freemium'AND team = 999 AND)。 ..
{“ base”:{“ code”:“ xm”,“ name”:“ project”},“ list”:[{“ ACode”:“ cp1”,“ AName”:“ Product1”,“ BList” :[{“ BCode”:“ gn1”,“ ...
为什么Hive SQL在Select语句中的特定列都具有所有双精度值的情况下返回该列的NULL值?
我正在使用Hive SQL。版本是Hive 1.1.0-cdh5.14.0。在下面的示例中,sp.close是具有双精度值类型的列。我检查了sp.column,绝对没有NULL值。然而,在此...
如果没有保证前面或后面的提前/滞后满足某个条件,该如何写有条件的提前/滞后?就我而言,我正在查看网站流量。样本数据(...