如何使用 Python 分离 DataFrame 中的 URL 和文本

问题描述 投票:0回答:0

我有一个 csv 文件,其中包含同一行中的文本和 URL 的信息(csv 中大约有 4000 行这样的行)。我想要做的是,我想将文本和 URL 分成另外 2 个不同的列。我将简要展示与该问题相关的 7 种不同情况:一些行包括

  1. 字母和网址(字母在前)

  2. 字母、数字和网址(字母、数字在前)

  3. 只有网址

  4. 只有字母或(和)数字

  5. 空白

  6. 首先没有“https://”的网址

  7. 几个网址之间的字母或(和)数字 我试过这样的事情:

    import numpy as np
    
    import pandas as pd
    path = "/content/drive/MyDrive/work/file2.csv"
    df = pd.read_csv(path)
    link = []
    symbol =[]
    for row in df["PopupInfo"]:
       if "https://" not in str(row): 
          continue
       elif row[:8] =="https://":
           symbol.append('')
           link.append(row)
       else:
           sep =row.split("https://")
           symbol.append(sep[0])
           link.append("https://"+sep[1])
    link
    

我的期望:

  1. 在超过 1 个链接的案例 7 中,此代码无法分离 URL 和文本,所以首先,我想解决这个案例
  2. 再次将URL列表添加到OID对应的初始数据框中

我怎样才能改进我的代码并解决所有的问题?我的数据总结如下。提前谢谢你。

我的数据

python string dataframe url
© www.soinside.com 2019 - 2024. All rights reserved.