我需要用aws Glue转换一个相当大的数据库表到csv。但是我只有过去24小时内的最新表格行。有一列指定行的创建日期。是否可以只转换这些行,而不将整个表复制到csv文件中?我正在使用Spark的python脚本。
非常感谢你提前!
AWS Glue中有一些内置转换,用于处理您的数据。可以从ETL脚本调用此传输。
请参考以下链接:https://docs.aws.amazon.com/glue/latest/dg/built-in-transforms.html
你还没有提到你正在尝试连接的database
的类型。无论如何,对于JDBC
连接,spark可以选择query,你可以在其中发出通常的SQL query
来获得你需要的行。