将列表列表转换为结构化pandas数据帧

Question

我试图转换以下数据结构;

到python 3中的格式;

Answer 1

如果您的数据如下：

array = [['PIN: 123 COD: 222 \n', 'LOA: 124 LOC: Sea \n'],
        ['PIN:456 COD:555 \n', 'LOA:678 LOC:Chi \n']]

你可以这样做：

1步骤：使用正则表达式来解析数据，因为它是字符串。

see more about reg-exp

raws=list()
for index in range(0,len(array)):    
    raws.append(re.findall(r'(PIN|COD|LOA|LOC): ?(\w+)', str(array[index])))

输出：

[[('PIN', '123'), ('COD', '222'), ('LOA', '124'), ('LOC', 'Sea')], [('PIN', '456'), ('COD', '555'), ('LOA', '678'), ('LOC', 'Chi')]]

2步骤：提取原始值和列名称。

columns = np.array(raws)[0,:,0]
raws = np.array(raws)[:,:,1]

输出：

基于 -

[['123' '222' '124' 'Sea']
 ['456' '555' '678' 'Chi']]

列 -

['PIN' 'COD' 'LOA' 'LOC']

3步骤：现在我们可以创建df。

df = pd.DataFrame(raws, columns=columns)

输出：

   PIN  COD  LOA  LOC
0  123  222  124  Sea
1  456  555  678  Chi

这是你想要的吗？

我希望它有所帮助，我不确定你的输入格式。

不要忘记导入库！（我用pandas作为pd，numpy作为np，re）。

UPD：我创建日志文件的另一种方式就像你有：

array = open('example.log').readlines()

输出：

['PIN: 123 COD: 222 \n',
 'LOA: 124 LOC: Sea \n',
 'PIN: 12 COD: 322 \n',
 'LOA: 14 LOC: Se \n']

然后用''拆分'，'\ n'并重新整形：

raws = np.array([i.split(' ')[:-1] for i in array]).reshape(2, 4, 2)

在重塑中，第一个数字是未来数据帧中的原始数量，第二个数量是列数和最后数量 - 您无需更改。如果在每个raw中没有info和'\ n'之间的空格，它就不会起作用。如果你不这样做，我会改变一个例子。输出：

array([[['PIN:', '123'],
        ['COD:', '222'],
        ['LOA:', '124'],
        ['LOC:', 'Sea']],

       [['PIN:', '12'],
        ['COD:', '322'],
        ['LOA:', '14'],
        ['LOC:', 'Se']]], 
      dtype='|S4')

然后取行和列：

columns = np.array(raws)[:,:,0][0]
raws = np.array(raws)[:,:,1]

最后，创建dataframe（以及列的cat last符号）：

pd.DataFrame(raws, columns=[i[:-1] for i in columns])

输出：

   PIN  COD  LOA  LOC
0  123  222  124  Sea
1   12  322   14   Se

如果您有许多日志文件，则可以为for循环中的每个执行此操作，将每个数据帧保存在数组中（例如，数组调用DF_array），然后使用pd.concat从数据帧数组中执行一个数据帧。

pd.concat(DF_array)

如果你需要我可以添加一个例子。

UPD：我创建了一个带有日志文件的目录，然后使用PATH中的所有文件创建数组：

PATH = "logs_data/"
files = [PATH + i for i in os.listdir(PATH)]

然后像上次更新一样进行for循环：

dfs = list()
for f in files:
    array = open(f).readlines()
    raws = np.array([i.split(' ')[:-1] for i in array]).reshape(len(array)/2, 4, 2)
    columns = np.array(raws)[:,:,0][0]
    raws = np.array(raws)[:,:,1]
    df = pd.DataFrame(raws, columns=[i[:-1] for i in columns])
    dfs.append(df)
result = pd.concat(dfs)

输出：

     PIN   COD    LOA  LOC
0    123   222    124  Sea
1     12   322     14   Se
2      1    32      4  Ses
0  15673  2324  13464  Sss
1  12452  3122  11234   Se
2     11   132      4  Ses
0    123   222    124  Sea
1     12   322     14   Se
2      1    32      4  Ses

将列表列表转换为结构化pandas数据帧

问题描述投票：-3回答：1

1个回答

最新问题

将列表列表转换为结构化pandas数据帧

问题描述 投票：-3回答：1

1个回答

最新问题

问题描述投票：-3回答：1