在python中对数据框列进行拼写检查。

问题描述 投票:0回答:1

我有一个大的数据框架,由大约10,000行用户输入的数据组成,其中有一些错别字。有一列是职位名称,我想搜索特定的职位,但由于拼写错误,我似乎无法得到所有我需要的数据。

目前我的数据是:title=[vet, doctor, teacher] 。

for title in titles: targetInfo =[df['jobtitles'].str.contains(title, na=False, case=False)] 。

有什么办法可以解决拼写错误的问题吗?

python dataframe pycharm
1个回答
0
投票

我想你可以使用pandas中的unique函数,例如。

df["titles"].unique() 

这可能会帮助找到唯一的值导致的那些包含错别字,然后在excel表,你可以替换这些与你喜欢的。

© www.soinside.com 2019 - 2024. All rights reserved.