如何将S3部分文件读入pandas数据帧

问题描述 投票:2回答:2

我已经将数据从redshift卸载到S3,卸载后我得到了xx_0000_part_00多个文件。

现在我想将这些文件读入pandas dataframe。

我怎样才能做到这一点?

谢谢,索姆

python pandas amazon-redshift
2个回答
0
投票

您必须使用将文件从s3导入本地或ec2

aws s3 cp

命令。在本地获得文件后,只需通过pandas库读取即可。

import pandas as pd
df = pd.read_csv('/file-path/filename')

PS-S3零件文件只是一个带有所选分隔符的常规csv文件。 如果我做了一个错误的假设请评论,我将重新调整我的答案。


0
投票

如果你想从redshift获取数据到pandas(或者从pandas获取数据到redshift),只需使用这个包:

https://github.com/agawronski/pandas_redshift

© www.soinside.com 2019 - 2024. All rights reserved.