我只想提取特定语言的所有Twitter提要。 (以提取僧伽罗语语言推文)如何使用python做到这一点?
regex是有用的。僧伽罗语使用U+0D80中的代码U+0DFF〜utf-8。首先,尝试使用正则表达式提取包含僧伽罗字符的推文。
regex
U+0D80
U+0DFF
utf-8