Twitterscaper:将推特国家/地区信息添加到报废的数据框中

问题描述 投票:1回答:1

[我正在使用https://github.com/taspinar/twitterscraper中的twitterscraper来抓取自2018年以来创建的大约2万条tweet。tweet位置不容易从默认设置中提取。然而,可以通过使用引号内的高级查询来完成从某个位置写的推文的搜索,例如"#hashtagofinterest near:US"

因此,我正在考虑遍历国家代码列表(alpha-2),以过滤来自某个国家的推文,并将该国家的信息添加到我的搜索结果中。在过去的10天中,已经对小样本进行了初步尝试。]

#set arguments
begin_date = dt.date(2020,4,1)
end_date = dt.date(2020,4,11)
lang = 'en'

#define queries
queries = [(f'(#hashtagA OR #hashtagB near:{country})', country) for country in alpha_2]

#initiate queries
dfs = []
for query, country in queries[:10]: #trying on first 10 countries
   temp = query_tweets(query, begindate = begin_date, enddate = end_date, lang=lang)
   temp = pd.DataFrame(t.__dict__ for t in temp)
   temp["country"] = [country]*len(temp)
   dfs.append((temp, country))

我设法将国家/地区信息添加为每个国家/地区df的新变量。部分输出:dfs部分输出:df

但是,我坚持将每个查询结果合并为1个数据帧。 pd.concat()无法在2列的传递数据上传递22列unintended result

我的预期结果是将新的国家/地区列添加到数据框中的默认21列(总共22个预期列)。intended result

我正在使用来自https://github.com/taspinar/twitterscraper的twitterscraper来删除自2018年以来创建的大约2万条tweet。tweet位置不容易从默认设置中提取。 ...

python pandas twitter
1个回答
0
投票

由于dfs是一个元组列表,每个元组都是(DataFrame, str),所以您只想串联dfs的每个元素的第一个。

© www.soinside.com 2019 - 2024. All rights reserved.