我有一些 json 数据(示例如下)。 awsgluecrawler读取此数据并使用表创建一个glue目录数据库,并将日期字段设置为字符串字段。有没有办法,我可以格式化我的 json 文件中的日期,以便爬虫可以将其识别为日期字段?我计划通过awsgluetetl将这些数据读入动态框架并将其推送到sql数据库,我想将其保存为日期字段,以便于查询和对日期字段进行比较。下面的脚本示例。
我可以将 Spark 数据框中的字符串日期字段转换为 rds 日期字段吗?
myscript.py
data=gluecontext.create_dynamic_frame.from_catalog(database="sample", table_name="table" ...
data_frame=data.toDF()
//convert the string field to date field in the spark data frame
{"id": "abc", .... date="2024-07-09"}
...
您可以使用 to_date 将字符串字段转换为 Spark 数据框中的日期字段,如下所示:
from pyspark.sql.functions import to_date
data=gluecontext.create_dynamic_frame.from_catalog(database="sample", table_name="table")
data_frame = data.toDF()
# convert the string field to the date field in the spark data frame
data_frame = data_frame.withColumn("date", to_date("date", "yyyy-MM-dd"))