我正在分析Twitter数据集中一些特定主题标签的使用。最终目标是随着时间的推移可视化这些主题标签的使用。数据以pandas数据帧组织。每行包含有关一条推文的信息。其中一列称为“文本”,这是所有推文的位置,一条推文是一个字符串。数据集是在时间之后编入索引的,所以我想要做的是计算每天使用特定主题标签的次数。
所以,这是关于数据帧的信息
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 9991 entries, 2018-05-25 15:54:01 to 2018-05-25 14:14:37
Data columns (total 13 columns):
Unnamed: 0 9991 non-null int64
ID 9991 non-null int64
has_media 2015 non-null object
is_reply 9991 non-null bool
is_retweet 9991 non-null bool
medias 2015 non-null object
nbr_favorite 9991 non-null int64
nbr_reply 9991 non-null int64
nbr_retweet 9991 non-null int64
text 9991 non-null object
url 9991 non-null object
user_id 9991 non-null int64
usernameTweet 9991 non-null object
dtypes: bool(2), int64(6), object(5)
memory usage: 956.2+ KB
特别是“文本”栏目
df['text']
给出以下结果:
datetime
2018-05-25 15:54:01 Høj stemmeprocent ved #ok18 urafstemning. Dej...
2018-05-25 16:40:24 Man kan tvivle på at de gode medarbejdere fra ...
2018-05-25 18:19:25 Nej @gitteredder teknikken drillede hos DLF. ...
2018-05-25 22:32:30 Rekordstor stemmeprocent hos @bibliotekarerne ...
2018-05-26 08:42:44 # ok18 stemte ja igår. Ja fordi folkeskolen i...
2018-05-26 10:21:20 Afstemningen er skudt i gang om #OK18 - 26 ti...
2018-05-26 12:12:28 Her godt et døgn efter afstemnings begyndelse ...
2018-05-26 14:14:35 Ikke vær bekymret for debatten - men vær bekym...
....
那么我如何计算每天使用标签#ok18的次数,并在x轴上每天制作一个线图并在y轴上使用主题标签?
这将使您进入一个包含#ok18所有出现的数据帧:
df.loc[df['text'].str.lower().str.contains('#ok18') == True]
从那里开始计算非常容易,但是如果你要想象它,你可能不想立即计算;您将要在时间轴上绘制主题标签的出现位置。