您可以在python中使用正则表达式,例如:
import re
for x in list :
re.sub("http\S*\s", "", x)
其中list是您的csv数据的列表。
这是我用来预处理Twitter数据的代码:
all_text = re.sub("#\S*\s", "", all_text)
all_text = re.sub("W+", "", all_text)
all_text = re.sub("@\S*\s", "", all_text)
all_text = re.sub("http\S*\s", "", all_text)