我正在使用IMDB数据集,最后提到了标题。
问题:1.报告记录了过去几年电影标题中字母数量的趋势。2.在视频发行年份和长度所属的分位数之间的交叉表。结果应包含year,min_length,max_length,num_videos_less_than25Percentile,num_videos_25_50Percentile,num_videos_50_75Percentile,num_videos_greaterthan75Precentile
第一部分很容易解决。对于第二部分,作为交叉表的初学者,我知道语法,但是有人可以指导如何进行解决。
请让我知道是否需要更多信息。
imdb.columns
Index([['fn','tid','title','wordsInTitle','url','imdbRating', 'ratingCount','duration','year','type','nrOfWins', 'nrOfNominations','nrOfPhotos','nrOfNewsArticles','nrOfUserReviews', 'nrOfGenre','动作','成人','冒险','动画','传记', “喜剧”,“犯罪”,“纪录片”,“戏剧”,“家庭”,“幻想”, 'FilmNoir','GameShow','History','Horror','Music','Musical', “神秘”,“新闻”,“ RealityTV”,“浪漫”,“科幻”,“简短”,“运动”, 'TalkShow','Thriller','War','Western'], dtype ='object')
可以使用groupby
解决:
groupby