解析存储在pandas dataframe列中的推文

问题描述 投票:1回答:1

我正在尝试通过存储在.csv文件中名为“text”的列中的推文进行解析。我想使用正则表达式,TweetTokenizer等,但这一切都要求文本以字符串形式(据我所知)。

我看到这篇文章:

Parsing a tweet inside a csv column in Python

但对我来说,代码太具体了,无法找到主题标签。我确实想这样做,但有没有人知道如何更普遍地将“text”列中的文本转换为字符串,以便我可以解析?

谢谢,punpun

python pandas csv parsing twitter
1个回答
0
投票

读取csv文件时,应将文本列导入为字符串:

df = pd.read_csv('tweet.csv')
print(df)

输出:

            user                                               text
0  scotthamilton  is upset that he can't update his Facebook by ...
1       mattycus  @Kenichan I dived many times for the ball. Man...
2        ElleCTF     my whole body feels itchy and like its on fire
3         Karoli  @nationwideclass no, it's not behaving at all....
4       joy_wolf                       @Kwesidei not the whole crew
5        mybirch                                         Need a hug
print(df.dtypes)

输出:

user    object
text    object
dtype: object

Pandas object dtype与Python str类型相同,用于文本。

如果确实需要将列类型转换为str,则可以使用以下命令:

df.text = df.text.astype(str)
© www.soinside.com 2019 - 2024. All rights reserved.