我们如何识别数据框中哪个列名称被重命名?

问题描述 投票:0回答:1

假设我每天都会收到一个带有 cols - [A,B,C] 的数据框。突然,第二天其中一栏被重命名为“D”。 如何确定哪一列已重命名为 D?我们可以比较数据并说出哪一列被重命名了吗?

我尝试使用模糊匹配(ExtractOne),但它会将每一列数据与所有其他列数据进行比较;这是一个需要时间的过程。有没有更好的办法来处理这种情况?

python dataframe pyspark databricks data-engineering
1个回答
0
投票

为了更有效地处理这种情况,您可以直接比较列数据,而不是使用模糊匹配,这可能会很慢。这是一个更简单的方法:

首先找出哪些列保持不变:将前一个数据帧的列与当前的列进行比较。这缩小了需要进一步检查的列的范围。

接下来,比较不同的列:由于一列已重命名,因此该列中的数据应该与原始列之一相同(或非常接近)。

这样,您就可以直接比较列,这比模糊匹配要快得多。

© www.soinside.com 2019 - 2024. All rights reserved.