我对我的数据集有疑问。我想检查我的数据框中缺少哪个日期和时间(见图)。 我想知道名为“开始时间”和“结束时间”的列。
我该如何解决这个问题?
我试过了:
pd.date_range(start = '2019-01-01 00:00:00', end = '2022-12-31 23:00:00' ).difference(allmerged.index)
但这不起作用。
首先在样本数据中有频率
15Min
,如果需要测试这个频率添加参数freq
到date_range
:
r = pd.date_range(start='2019-01-01 00:00:00', end='2022-12-31 23:00:00', freq='15Min')
如有必要,将两列转换为日期时间:
df[['starttime','endtime']] = df[['starttime','endtime']].apply(pd.to_datetime)
Index.difference
的最后测试:
#testing both together
out = r.difference(np.ravel(df[['starttime','endtime']].to_numpy()))
out = r.difference(df[['starttime','endtime']].stack())
#testing separately
start = r.difference(df['starttime'])
end = r.difference(df['endtime'])