我正在使用包rtweet搜索所有包含关键字列表的推文(请参见下面的示例代码)。从这些推文中,我想提取有关它们是否包含媒体(即照片或视频)的信息,对于那些确实包含媒体的信息,请提取信息。
所有这些都应使用以下代码来工作:
Step1-搜索推文:
seagrasstweet30day <- search_30day(q = '(posidonia OR poseidonia OR #posidonia OR cymodocea OR cymo OR seagrass) (Gloria OR #Gloria OR temporal OR storm OR llevantada)',
n = 500,
env_name = "research")
Step2-过滤掉所有转发,只保留那些具有media_url的转发而不是NA(即带有图像的转发):
tweets_images <- positweet30day %>%
filter(is_retweet == F) %>%
filter(!is.na(media_url)) %>%
select(media_url) %>%
unnest()
Step3-下载媒体。
一旦有了这个数据集,我将使用函数download.file()
。
问题:包含媒体的大多数(但不是全部!)推文在步骤2中被滤除,因为从search_30day()
函数获得的它们的media_url列为NA
。关于为什么包含媒体的推文不显示其media_url的任何想法?感谢您的任何反馈!
看着打包程序鸣叫,看起来您可以根据图像的存在来预过滤鸣叫,在查询(q)中添加此过滤器
这里有一些例子:
Tweet attributes:
• is:retweet ~~ only retweets
• has:mentions ~~ uses mention(s)
• has:hashtags ~~ uses hashtags(s)
• has:media ~~ includes media(s)
• has:videos ~~ includes video(s)
• has:images ~~ includes image(s)
• has:links ~~ includes URL(s)