逐行过滤数据

问题描述 投票:1回答:4

嗨,我是一个初学python用户,我需要一些帮助。我试图将一个数据帧与另一个数据帧进行过滤。

DF1

 date          emp#   sku     transaction#   
 2017-01-01    10     200     399              
 2017-01-01    10     201     399             
 2017-01-01    10     202     399             
 2017-01-01    11     203     399             
 2017-01-01    11     200     399            

DF2

 date          emp#   sku     transaction#
 2017-01-01    10     200     301
 2017-01-01    11     200     301

期望的Df1

 date          emp#   sku     transaction#
 2017-01-01    10     200     399
 2017-01-01    11     200     399

我知道这可以使用内连接(一个emp#和sku),但我会有错误的列,我怎么能这样做一个过滤器?

python pandas filter merge
4个回答
1
投票

这是没有pd.merge的一种方式。这种方法的好处是您不必使用列名称。

df2 = df2.set_index(['emp#', 'sku'])
df2['transaction#'] = df1.set_index(['emp#', 'sku'])['transaction#']
df2 = df2.reset_index()

#    emp#  sku        date  transaction#
# 0    10  200  2017-01-01           399
# 1    11  200  2017-01-01           399

2
投票

使用mergeon参数:

Df1.merge(Df2, on=['date','emp#','sku'], suffixes=('','_y'))\
   .drop('transaction#_y', axis=1)

输出:

         date  emp#  sku  transaction#
0  2017-01-01    10  200           399
1  2017-01-01    11  200           399

0
投票

你可以通过将所需的列转换为字典,并将方向设置为df2,从list进行过滤,然后使用isin检查存在的值。最后,取每行的min以确保满足两个条件,即

  1. False False + = False
  2. False True + = False
  3. True False + = False
  4. True True + = True

cols = ['emp#','sku']
df1[df1[cols].isin(df2[cols].to_dict(orient='list')).min(1)]

         date  emp#  sku  transaction#
0  2017-01-01    10  200           399
4  2017-01-01    11  200           399

-1
投票

您需要一个内部联接,它看起来像:保持仅在两者中的行:

df1.join(df2, how='inner')
© www.soinside.com 2019 - 2024. All rights reserved.