如何删除“http://”、“https://”或“www”。来自 pandas 中的字符串

问题描述 投票:0回答:1

Python/pandas 新手。

在名为“URL”的列中,我尝试替换任何包含“http://”、“https://”或“www”的 URL。并保留后面的所有内容。

例如, 如果 URL 是 “http://harvard.edu”, “http://https://www.harvard.edu”, 或类似 URL 的任何变体,我如何获取该列并更改它,以便不包含“http://”、“https://”或“www”的字符串。并只保留“harvard.edu”。 我尝试过字符串替换但无济于事,所以不知道我做错了什么。

python pandas replace
1个回答
0
投票

您可以在 Pandas 中使用

str.replace()
来删除
"http://", "https://", and "www."
从 URL 列。通过使用正则表达式,您可以一步有效地匹配和删除所有这些模式。

data = {'URL': ['http://harvard.edu', 'https://www.example.com', 'www.testsite.org', 'http://https://www.harvard.edu']}
df = pd.DataFrame(data)
df['URL'] = df['URL'].str.replace(r'(http://|https://|www\.)', '', regex=True)
© www.soinside.com 2019 - 2024. All rights reserved.