我有一个大的数据框架,由大约10,000行用户输入的数据组成,其中有一些错别字。有一列是职位名称,我想搜索特定的职位,但由于拼写错误,我似乎无法得到所有我需要的数据。
目前我的数据是:title=[vet, doctor, teacher] 。
for title in titles: targetInfo =[df['jobtitles'].str.contains(title, na=False, case=False)] 。
有什么办法可以解决拼写错误的问题吗?
我想你可以使用pandas中的unique函数,例如。
df["titles"].unique()
这可能会帮助找到唯一的值导致的那些包含错别字,然后在excel表,你可以替换这些与你喜欢的。