我是一个非常新的Python新手,已经开始研究文本数据。
我想在数据框架中添加一列,将其与另一列中提到的条件进行比较,并据此填充。
数据集有10000行,我把它缩短,随机抽取了2000行。
我想加入新的列名为 "Review Sentiment",并将其中的单元格填写为:如果review.rating是>3,则为1;如果review.rating是=< 3,则为0。
以下是我尝试过的方法。
代码: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误: 错误:
Dataset = pd.read_csv('Datafiniti_Hotel_Reviews.csv')
Dataset_sample = Dataset.sample(n = 2000)
Dataset_sample.head()
i=0
for i in range(len(Dataset_sample.axes[0])):
if(Dataset_sample['reviews.rating'] < 3):
Dataset_sample.insert(len(Dataset_sample.axes[1],"Test",1))
else:
Dataset_sample.insert(len(Dataset_sample.axes[1],"Test",0))
错误。
错误:ValueError。一个Series的真值含糊不清。请使用a.empty、a.bool()、a.item()、a.any()或a.all()。
数据集:从数据集中提取。从数据集中提取。请帮助使用数据集中的这些列。逻辑仍然是一样的。
ID province reviews.rating
----------------------------
1 CA 5
7 ST 4
3 DL 4
6 YT 5
5 JD 1
import pandas as pd
# Data
dfBuses = pd.DataFrame({'size': [40,30], 'cost': [500,400]},
index = ['bus1', 'bus2'], columns=['size','cost'])
print(dfBuses)
dfBuses['expensive']=[(row['cost']>=450) for i,row in dfBuses.iterrows()]
print(dfBuses)
给出
size cost
bus1 40 500
bus2 30 400
size cost expensive
bus1 40 500 True
bus2 30 400 False