使用rtweet从推文中获取媒体

问题描述 投票:0回答:1

我正在使用包rtweet搜索所有包含关键字列表的推文(请参见下面的示例代码)。从这些推文中,我想提取有关它们是否包含媒体(即照片或视频)的信息,对于那些确实包含媒体的信息,请提取信息。

所有这些都应使用以下代码来工作:

Step1-搜索推文:

seagrasstweet30day <- search_30day(q = '(posidonia OR poseidonia OR #posidonia OR cymodocea OR cymo OR seagrass) (Gloria OR #Gloria OR temporal OR storm OR llevantada)',
                                   n = 500,
                                   env_name = "research")

Step2-过滤掉所有转发,只保留那些具有media_url的转发而不是NA(即带有图像的转发):

tweets_images <- positweet30day %>% 
  filter(is_retweet == F) %>% 
  filter(!is.na(media_url)) %>% 
  select(media_url) %>% 
  unnest()

Step3-下载媒体。

一旦有了这个数据集,我将使用函数download.file()


问题:包含媒体的大多数(但不是全部!)推文在步骤2中被滤除,因为从search_30day()函数获得的它们的media_url列为NA。关于为什么包含媒体的推文不显示其media_url的任何想法?感谢您的任何反馈!

r json twitter rtweet
1个回答
0
投票

看着打包程序鸣叫,看起来您可以根据图像的存在来预过滤鸣叫,在查询(q)中添加此过滤器

这里有一些例子:

Tweet attributes:
• is:retweet ~~ only retweets
• has:mentions ~~ uses mention(s)
• has:hashtags ~~ uses hashtags(s)
• has:media ~~ includes media(s)
• has:videos ~~ includes video(s)
• has:images ~~ includes image(s)
• has:links ~~ includes URL(s)
© www.soinside.com 2019 - 2024. All rights reserved.