[我正在使用https://github.com/taspinar/twitterscraper中的twitterscraper来抓取自2018年以来创建的大约2万条tweet。tweet位置不容易从默认设置中提取。然而,可以通过使用引号内的高级查询来完成从某个位置写的推文的搜索,例如"#hashtagofinterest near:US"
因此,我正在考虑遍历国家代码列表(alpha-2),以过滤来自某个国家的推文,并将该国家的信息添加到我的搜索结果中。在过去的10天中,已经对小样本进行了初步尝试。]
#set arguments
begin_date = dt.date(2020,4,1)
end_date = dt.date(2020,4,11)
lang = 'en'
#define queries
queries = [(f'(#hashtagA OR #hashtagB near:{country})', country) for country in alpha_2]
#initiate queries
dfs = []
for query, country in queries[:10]: #trying on first 10 countries
temp = query_tweets(query, begindate = begin_date, enddate = end_date, lang=lang)
temp = pd.DataFrame(t.__dict__ for t in temp)
temp["country"] = [country]*len(temp)
dfs.append((temp, country))
但是,我坚持将每个查询结果合并为1个数据帧。 pd.concat()无法在2列的传递数据上传递22列unintended result
我的预期结果是将新的国家/地区列添加到数据框中的默认21列(总共22个预期列)。intended result
我正在使用来自https://github.com/taspinar/twitterscraper的twitterscraper来删除自2018年以来创建的大约2万条tweet。tweet位置不容易从默认设置中提取。 ...
由于dfs
是一个元组列表,每个元组都是(DataFrame, str)
,所以您只想串联dfs
的每个元素的第一个。