我有以下数据集: -
ID Sensor State DateTime
1 S1 0 2018-09-10 10:10:05
1 S1 0 2018-09-10 10:10:10
1 S1 0 2018-09-10 10:10:20
1 S1 1 2018-09-10 10:10:30
1 S1 1 2018-09-10 10:10:40
1 S1 1 2018-09-10 10:10:50
1 S1 1 2018-09-10 10:10:60
1 S2 0 2018-09-10 10:10:10
1 S2 0 2018-09-10 10:10:20
1 S2 0 2018-09-10 10:10:30
1 S2 1 2018-09-10 10:10:40
1 S2 1 2018-09-10 10:10:50
2 S1 0 2018-09-10 10:10:30
2 S1 1 2018-09-10 10:10:40
2 S1 1 2018-09-10 10:10:50
要求的输出
ID Sensor State MinDT MaxDT
1 S1 0 2018-09-10 10:10:05 2018-09-10 10:10:20
1 S1 1 2018-09-10 10:10:30 2018-09-10 10:10:60
1 S2 0 2018-09-10 10:10:10 2018-09-10 10:10:30
1 S2 1 2018-09-10 10:10:40 2018-09-10 10:10:50
2 S1 0 2018-09-10 10:10:30 2018-09-10 10:10:30
2 S1 1 2018-09-10 10:10:40 2018-09-10 10:10:50
我想根据传感器更改值创建一个组,并且在更改值时我将需要该范围。请帮忙。我尝试了一种简单的方法,通过在变量中初始化值然后遍历每一行来检查值的变化并将ResultSet存储在数组中,但这种方法不在集群上分布。请给我任何建议。
您可以按这种方式分组,并根据需要实现结果。
df.groupBy("ID", "Sensor", "State")
.agg(
date_format(max(to_timestamp($"DateTime", "yyyy-MM-dd HH:mm:ss")), "yyyy-MM-dd HH:mm:ss").alias("MaxDT"),
date_format(min(to_timestamp($"DateTime", "yyyy-MM-dd HH:mm:ss")), "yyyy-MM-dd HH:mm:ss").alias("MinDT"))
.show()
输出:
+---+------+-----+-------------------+-------------------+
| ID|Sensor|State| MaxDT| MinDT|
+---+------+-----+-------------------+-------------------+
| 2| S1| 0|2018-09-10 10:10:30|2018-09-10 10:10:30|
| 1| S2| 1|2018-09-10 10:10:50|2018-09-10 10:10:40|
| 2| S1| 1|2018-09-10 10:10:50|2018-09-10 10:10:40|
| 1| S1| 0|2018-09-10 10:10:20|2018-09-10 10:10:05|
| 1| S2| 0|2018-09-10 10:10:30|2018-09-10 10:10:10|
| 1| S1| 1|2018-09-10 10:10:50|2018-09-10 10:10:30|
+---+------+-----+-------------------+-------------------+