在python中对数据框列进行拼写检查。

Question

我有一个大的数据框架，由大约10,000行用户输入的数据组成，其中有一些错别字。有一列是职位名称，我想搜索特定的职位，但由于拼写错误，我似乎无法得到所有我需要的数据。

目前我的数据是:title=[vet, doctor, teacher] 。

for title in titles: targetInfo =[df['jobtitles'].str.contains(title, na=False, case=False)] 。

有什么办法可以解决拼写错误的问题吗？

Answer 1

我想你可以使用pandas中的unique函数，例如。

df["titles"].unique()

这可能会帮助找到唯一的值导致的那些包含错别字，然后在excel表，你可以替换这些与你喜欢的。