有没有一种方法可以计算每天在特定列中出现特定单词的次数?

问题描述 投票:0回答:1

我正在分析Twitter数据集中一些特定主题标签的使用。最终目标是随着时间的推移可视化这些主题标签的使用。数据以pandas数据帧组织。每行包含有关一条推文的信息。其中一列称为“文本”,这是所有推文的位置,一条推文是一个字符串。数据集是在时间之后编入索引的,所以我想要做的是计算每天使用特定主题标签的次数。

所以,这是关于数据帧的信息

 <class 'pandas.core.frame.DataFrame'>
 DatetimeIndex: 9991 entries, 2018-05-25 15:54:01 to 2018-05-25 14:14:37
 Data columns (total 13 columns):
 Unnamed: 0       9991 non-null int64
 ID               9991 non-null int64
 has_media        2015 non-null object
 is_reply         9991 non-null bool
 is_retweet       9991 non-null bool
 medias           2015 non-null object
 nbr_favorite     9991 non-null int64
 nbr_reply        9991 non-null int64
 nbr_retweet      9991 non-null int64
 text             9991 non-null object
 url              9991 non-null object
 user_id          9991 non-null int64
 usernameTweet    9991 non-null object
 dtypes: bool(2), int64(6), object(5)
 memory usage: 956.2+ KB

特别是“文本”栏目

df['text']

给出以下结果:

datetime
2018-05-25 15:54:01    Høj stemmeprocent ved #ok18  urafstemning. Dej...
2018-05-25 16:40:24    Man kan tvivle på at de gode medarbejdere fra ...
2018-05-25 18:19:25    Nej @gitteredder  teknikken drillede hos DLF. ...
2018-05-25 22:32:30    Rekordstor stemmeprocent hos @bibliotekarerne ...
2018-05-26 08:42:44    # ok18  stemte ja igår. Ja fordi folkeskolen i...
2018-05-26 10:21:20    Afstemningen er skudt i gang om #OK18  - 26 ti...
2018-05-26 12:12:28    Her godt et døgn efter afstemnings begyndelse ...
2018-05-26 14:14:35    Ikke vær bekymret for debatten - men vær bekym...
....

那么我如何计算每天使用标签#ok18的次数,并在x轴上每天制作一个线图并在y轴上使用主题标签?

python pandas twitter time-series
1个回答
1
投票

这将使您进入一个包含#ok18所有出现的数据帧:

df.loc[df['text'].str.lower().str.contains('#ok18') == True]

从那里开始计算非常容易,但是如果你要想象它,你可能不想立即计算;您将要在时间轴上绘制主题标签的出现位置。

© www.soinside.com 2019 - 2024. All rights reserved.