我有这个代码读取'NAME'列并返回每个单词的单词出现。
temp_df = pd.read_excel('file location here', index=True)
final_df = pd.Series(' '.join([unicode(i) for i in temp_df.NAME]).split()).value_counts()
问题是第一列是单词的名称,默认情况下总是成为索引,即使我做了类似的事情
final_df.rename({0: 'word', 1: 'count'})
它会告诉我只存在1个元素,但我试图重命名2个元素,但原因是因为它将'word'列视为索引,任何想法如何解决这个问题?
输出是Series
,所以需要Series.reset_index
:
final_df = final_df.reset_index()
final_df.columns = ['word', 'count']
另一种方案:
final_df = final_df.reset_index(name='count').rename(columns={'index':'word'})