我已经将数据从redshift卸载到S3,卸载后我得到了xx_0000_part_00多个文件。
现在我想将这些文件读入pandas dataframe。
我怎样才能做到这一点?
谢谢,索姆
您必须使用将文件从s3导入本地或ec2
aws s3 cp
命令。在本地获得文件后,只需通过pandas库读取即可。
import pandas as pd
df = pd.read_csv('/file-path/filename')
PS-S3零件文件只是一个带有所选分隔符的常规csv文件。 如果我做了一个错误的假设请评论,我将重新调整我的答案。
如果你想从redshift获取数据到pandas(或者从pandas获取数据到redshift),只需使用这个包: