我试图在df1和df2之间的2个系列/列之间进行模糊查找,其中df1是字典文件(用作基础),df2是目标文件(要查找)
import pandas as pd
df1 = pd.DataFrame(data ={'Brand_var':['Altmeister Bitter','Altos Las Hormigas Argentinian Wine','Amadeus Contri Sparkling Wine','Amadeus Cream Liqueur','Amadeus Sparkling Sparkling Wine']})
df2 = pd.DataFrame(data = {'Product':['1960 Altmeister 330ML CAN METAL','Hormi 12 Yr Bottle','test']})
我在SO中寻找了一些解决方案,遗憾的是似乎找不到解决方案。
用过的:
df3 = df2['ProductLongDesc'].apply(lambda x: difflib.get_close_matches(x, df1['Brand_var'])[0])
还:
df3 = df2['Product'].apply(lambda x: difflib.get_close_matches(x, df1['Brand_var']))
第一个给我一个索引错误,第二个给我一个索引。
我想要的输出是使用模糊查找打印df1项目和df2项目之间的映射,并打印Brand_var和Product各自的匹配项。
期望的输出:
Brand_var Product
Altmeister Bitter 1960 Altmeister 330ML CAN METAL
Altos Las Hormigas Argentinian Wine Hormi 12 Yr Bottle
对于非匹配项ex:test in df2,可以忽略。
注意:匹配的字符串名称也可能不相同,因为它可能缺少1或2个字母。 :(
提前感谢您抽出时间来解决这个问题。 :)
如果您安装fuzzywuzzy
,您仍然遇到问题如何选择正确的启发式选择正确的产品并切割那些选择不正确的产品(下面的说明)
安装fuzzywuzzy
:
pip install fuzzywuzzy
fuzzywuzzy
有几种比率计算方法(examples on github)。你面临的问题是:如何选择最好的?我在你的数据上尝试了它们,但所有这些都被贬低了。码:
import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz
# df1 = ...
# df2 = ...
def get_top_by_ratio(x, df2):
product_values = df2.Product.values
# compare two strings by characters
ratio = np.array([fuzz.partial_ratio(x, val) for val in product_values])
argmax = np.argmax(ratio)
rating = ratio[argmax]
linked_product = product_values[argmax]
return rating, linked_product
将此函数应用于您的数据:
partial_ratio = (df1.Brand_var.apply(lambda x: get_top_by_ratio(x, df2))
.apply(pd.Series) # convert returned Series of tuples into pd.DataFrame
.rename(columns={0: 'ratio', 1: 'Product'})) # just rename columns
print(partial_ratio)
Out:
0 65 1960 Altmeister 330ML CAN METAL # Altmeister Bitter
1 50 test # Altos Las Hormigas Argentinian Wine
2 33 test
3 50 test
4 50 test
这不好。其他比率方法如fuzz.ratio
,fuzz.token_sort_ratio
等也失败了。
所以我想扩展启发式比较单词不仅字符可能有帮助。定义一个函数,它将根据您的数据创建词汇表,对所有句子进行编码,并使用更复杂的启发式查找单词:
def create_vocab(df1, df2):
# Leave 0 index free for unknow words
all_words = set((df1.Brand_var.str.cat(sep=' ') + df2.Product.str.cat(sep=' ')).split())
vocab = dict([(i + 1, w) for i, w in enumerate(all_words)])
return vocab
def encode(string, vocab):
"""This function encodes a sting with vocabulary"""
return [vocab[w] if w in vocab else 0 for w in string.split()]
定义新的启发式:
def get_top_with_heuristic(x, df2, vocab):
product_values = df2.Product.values
# compare two strings by characters
ratio_per_char = np.array([fuzz.partial_ratio(x, val) for val in product_values])
# compare two string by words
ratio_per_word = np.array([fuzz.partial_ratio(x, encode(val, vocab)) for val in product_values])
ratio = ratio_per_char + ratio_per_word
argmax = np.argmax(ratio)
rating = ratio[argmax]
linked_product = product_values[argmax]
return rating, linked_product
创建词汇表,对数据应用复杂的启发式:
vocab = create_vocab(df1, df2)
heuristic_rating = (df1.Brand_var.apply(lambda x: get_top_with_heuristic(x, df2, vocab))
.apply(pd.Series)
.rename(columns={0: 'ratio', 1: 'Product'}))
print(heuristic_rating)
Out:
ratio Product
0 73 1960 Altmeister 330ML CAN METAL # Altmeister Bitter
1 61 Hormi 12 Yr Bottle # Altos Las Hormigas Argentinian Wine
2 45 Hormi 12 Yr Bottle
3 50 test
4 50 test
这似乎是正确的!将此数据帧连接到df1,更改索引:
result_heuristic = pd.concat((df1, heuristic_rating), axis=1).set_index('Brand_var')
print(result_heuristic)
Out:
ratio Product
Brand_var
Altmeister Bitter 73 1960 Altmeister 330ML CAN METAL
Altos Las Hormigas Argentinian Wine 61 Hormi 12 Yr Bottle
Amadeus Contri Sparkling Wine 45 Hormi 12 Yr Bottle
Amadeus Cream Liqueur 50 test
Amadeus Sparkling Sparkling Wine 50 test
现在你应该选择一些拇指规则来剪切不正确的数据。对于这个例子,ratio <= 50
运作良好,但您可能需要一些研究来定义最佳启发式和正确的阈值。此外,你还会得到一些错误。选择可接受的错误率,即2%,5%......并改进算法直到达到它(此任务类似于机器学习分类算法的验证)。
削减不正确的“预测”:
result = result_heuristic[result_heuristic.ratio > 50][['Product']]
print(result)
Out: Product
Brand_var
Altmeister Bitter 1960 Altmeister 330ML CAN METAL
Altos Las Hormigas Argentinian Wine Hormi 12 Yr Bottle
希望能帮助到你!
附:当然,这个算法非常慢,当你优化'它你应该做一些优化,例如,缓存差异等。