Pandas替代应用 - 基于多列创建新列

Question

我有一个Pandas数据帧，我想根据其他列的值添加一个新列。下面是一个说明我的用例的最小例子。

df = pd.DataFrame([[4,5,19],[1,2,0],[2,5,9],[8,2,5]], columns=['a','b','c'])
df

    a   b   c
---------------
0   4   5   19
1   1   2   0
2   2   5   9
3   8   2   5

x = df.sample(n=2)
x

    a   b   c
---------------
3   8   2   5
1   1   2   0

def get_new(row):
    a, b, c = row
    return random.choice(df[(df['a'] != a) & (df['b'] == b) & (df['c'] != c)]['c'].values)

y = x.apply(lambda row: get_new(row), axis=1)
x['new'] = y
x

    a   b   c   new
--------------------
3   8   2   5   0
1   1   2   0   5

注意：原始数据帧有大约400万行和~6列。样本中的行数可能在50到500之间变化。我在具有8 GB RAM的64位计算机上运行。

上面的工作，除了它很慢（对我来说需要大约15秒）。我也尝试使用x.itertuples()而不是apply，在这种情况下没有太大的改进。

似乎apply（使用axis = 1）很慢，因为它没有使用矢量化操作。有什么方法可以更快地实现这一目标吗？
与使用条件布尔变量相比，过滤（在get_new函数中）是否可以被修改或提高效率，正如我目前所拥有的那样？
我可以在某种程度上使用numpy来获得一些加速吗？

编辑：df.sample()也很慢，我不能使用.iloc或.loc，因为我正在进一步修改示例，并且不希望这会影响原始数据帧。

Answer 1

通过使用.loc而不是链式索引，我看到了合理的性能提升：

import random, pandas as pd, numpy as np

df = pd.DataFrame([[4,5,19],[1,2,0],[2,5,9],[8,2,5]], columns=['a','b','c'])

df = pd.concat([df]*1000000)

x = df.sample(n=2)

def get_new(row):
    a, b, c = row
    return random.choice(df[(df['a'] != a) & (df['b'] == b) & (df['c'] != c)]['c'].values)

def get_new2(row):
    a, b, c = row
    return random.choice(df.loc[(df['a'] != a) & (df['b'] == b) & (df['c'] != c), 'c'].values)


%timeit x.apply(lambda row: get_new(row), axis=1)   # 159ms
%timeit x.apply(lambda row: get_new2(row), axis=1)  # 119ms

Pandas替代应用 - 基于多列创建新列

问题描述投票：4回答：1

1个回答

最新问题

Pandas替代应用 - 基于多列创建新列

问题描述 投票：4回答：1

1个回答

最新问题

问题描述投票：4回答：1