Python/pandas 新手。
在名为“URL”的列中,我尝试替换任何包含“http://”、“https://”或“www”的 URL。并保留后面的所有内容。
例如, 如果 URL 是 “http://harvard.edu”, “http://https://www.harvard.edu”, 或类似 URL 的任何变体,我如何获取该列并更改它,以便不包含“http://”、“https://”或“www”的字符串。并只保留“harvard.edu”。 我尝试过字符串替换但无济于事,所以不知道我做错了什么。
您可以在 Pandas 中使用
str.replace()
来删除 "http://", "https://", and "www."
从 URL 列。通过使用正则表达式,您可以一步有效地匹配和删除所有这些模式。
data = {'URL': ['http://harvard.edu', 'https://www.example.com', 'www.testsite.org', 'http://https://www.harvard.edu']}
df = pd.DataFrame(data)
df['URL'] = df['URL'].str.replace(r'(http://|https://|www\.)', '', regex=True)