如何通过Glue在AWS Athena中查询嵌套的XML文件

问题描述 投票:0回答:1

我希望嵌套的XML文件使用AWS胶水从AWS Athena进行查询。

<Files>
<File>
<Charges>
<charge>
<FRNo>99988881111</FRNo>
<amount>25.0</amount>
<Date>2019-02-25</Date>
<chargeType>Recur</chargeType>
<phoneNo>4444000012</phoneNo>
</charge>

<charge>
<FRNo>99988881111</FRNo>
<amount>40.0</amount>
<Date>2019-02-25</Date>
<chargeType>Recur</chargeType>
<phoneNo>4444000012</phoneNo>
</charge>

</Charges>


<FRNo>99988881111</FRNo>
<address>New YORK</address>
<amount>111</amount>
<DN>100000</DN>
 <name>Rite</name>
<phoneNo>4444000012</phoneNo>
<tax>8.0</tax>
</File>
</Files>

像这样我有10k的记录。我想我们必须在ETL工作中做一些修改。如有任何其他信息,请与我联系。

amazon-web-services pyspark etl amazon-athena aws-glue
1个回答
1
投票

目前,Amazon Athena不支持XML文件格式。您可以在此处找到支持的格式列表:https://docs.aws.amazon.com/athena/latest/ug/supported-format.html

由于AWS Glue支持XML作为ETL输入格式(https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html),因此您可以先将数据从XML转换为JSON,然后使用Athena查询JSON数据。

© www.soinside.com 2019 - 2024. All rights reserved.