逐行过滤数据

Question

嗨，我是一个初学python用户，我需要一些帮助。我试图将一个数据帧与另一个数据帧进行过滤。

DF1

 date          emp#   sku     transaction#   
 2017-01-01    10     200     399              
 2017-01-01    10     201     399             
 2017-01-01    10     202     399             
 2017-01-01    11     203     399             
 2017-01-01    11     200     399

DF2

 date          emp#   sku     transaction#
 2017-01-01    10     200     301
 2017-01-01    11     200     301

期望的Df1

 date          emp#   sku     transaction#
 2017-01-01    10     200     399
 2017-01-01    11     200     399

我知道这可以使用内连接（一个emp＃和sku），但我会有错误的列，我怎么能这样做一个过滤器？

Answer 1

这是没有pd.merge的一种方式。这种方法的好处是您不必使用列名称。

df2 = df2.set_index(['emp#', 'sku'])
df2['transaction#'] = df1.set_index(['emp#', 'sku'])['transaction#']
df2 = df2.reset_index()

#    emp#  sku        date  transaction#
# 0    10  200  2017-01-01           399
# 1    11  200  2017-01-01           399

Answer 2

使用merge和on参数：

Df1.merge(Df2, on=['date','emp#','sku'], suffixes=('','_y'))\
   .drop('transaction#_y', axis=1)

输出：

         date  emp#  sku  transaction#
0  2017-01-01    10  200           399
1  2017-01-01    11  200           399

Answer 3

你可以通过将所需的列转换为字典，并将方向设置为df2，从list进行过滤，然后使用isin检查存在的值。最后，取每行的min以确保满足两个条件，即

False False + = False
False True + = False
True False + = False
True True + = True

cols = ['emp#','sku']
df1[df1[cols].isin(df2[cols].to_dict(orient='list')).min(1)]

         date  emp#  sku  transaction#
0  2017-01-01    10  200           399
4  2017-01-01    11  200           399

Answer 4

您需要一个内部联接，它看起来像：保持仅在两者中的行：

df1.join(df2, how='inner')

逐行过滤数据

问题描述投票：1回答：4

4个回答

最新问题

逐行过滤数据

问题描述 投票：1回答：4

4个回答

最新问题

问题描述投票：1回答：4