我有两个pandas数据帧
Unnamed: 0 sentiment numberagreed tweetid tweet
0 0 2 6 219584 Apple processa a Samsung no Japão - Notícias -...
1 1 1 3 399249 É O JACKI CHAN !!! RT @user ESSE É DOS MEUS!!!...
2 2 3 3 387155 Eras o samsung galaxy tab e muito lerdo para t...
3 3 3 3 205458 Dizem que a coisa mais triste que o homem enfr...
4 4 3 3 2054404 RAIVA vou ter que ir com meu nike dinovo pra e...
tweetid sent
219584 0.494428
399249 0.789241
387155 0.351972
205458 0.396907
2054404 0.000000
它们的长度不同,第二个数据框中有一些缺失值
我想基于tweetid
合并两个数据帧并删除缺失值
使用pd.merge
pd.merge(left=df1, right=df2, on='tweetid', how='inner')
因为你拿inner
,非重叠的部分将被扔掉。 on='tweetid'
将它合并在tweetid
上。
在文件的开头可能有一个额外的字符。你在读取csv文件中的数据吗?发布您如何阅读数据的源代码。
或在两个数据框上命名您的列。
df_tweets.columns = ("tweetid", "sent")