如何将S3部分文件读入pandas数据帧

Question

我已经将数据从redshift卸载到S3，卸载后我得到了xx_0000_part_00多个文件。

现在我想将这些文件读入pandas dataframe。

我怎样才能做到这一点？

谢谢，索姆

Answer 1

您必须使用将文件从s3导入本地或ec2

aws s3 cp

命令。在本地获得文件后，只需通过pandas库读取即可。

import pandas as pd
df = pd.read_csv('/file-path/filename')

PS-S3零件文件只是一个带有所选分隔符的常规csv文件。如果我做了一个错误的假设请评论，我将重新调整我的答案。

Answer 2

如果你想从redshift获取数据到pandas（或者从pandas获取数据到redshift），只需使用这个包：