如何格式化awsglue爬虫/数据框的字符串日期以正确识别为日期字段?

问题描述 投票:0回答:1

我有一些 json 数据(示例如下)。 awsgluecrawler读取此数据并使用表创建一个glue目录数据库,并将日期字段设置为字符串字段。有没有办法,我可以格式化我的 json 文件中的日期,以便爬虫可以将其识别为日期字段?我计划通过awsgluetetl将这些数据读入动态框架并将其推送到sql数据库,我想将其保存为日期字段,以便于查询和对日期字段进行比较。下面的脚本示例。

我可以将 Spark 数据框中的字符串日期字段转换为 rds 日期字段吗?

myscript.py

data=gluecontext.create_dynamic_frame.from_catalog(database="sample", table_name="table" ...

data_frame=data.toDF()

//convert the string field to date field in the spark data frame
{"id": "abc", .... date="2024-07-09"}
...
python pyspark amazon-rds aws-glue
1个回答
0
投票

您可以使用 to_date 将字符串字段转换为 Spark 数据框中的日期字段,如下所示:

from pyspark.sql.functions import to_date

data=gluecontext.create_dynamic_frame.from_catalog(database="sample", table_name="table")
data_frame = data.toDF()

# convert the string field to the date field in the spark data frame
data_frame = data_frame.withColumn("date", to_date("date", "yyyy-MM-dd"))
© www.soinside.com 2019 - 2024. All rights reserved.