我希望嵌套的XML文件使用AWS胶水从AWS Athena进行查询。
<Files>
<File>
<Charges>
<charge>
<FRNo>99988881111</FRNo>
<amount>25.0</amount>
<Date>2019-02-25</Date>
<chargeType>Recur</chargeType>
<phoneNo>4444000012</phoneNo>
</charge>
<charge>
<FRNo>99988881111</FRNo>
<amount>40.0</amount>
<Date>2019-02-25</Date>
<chargeType>Recur</chargeType>
<phoneNo>4444000012</phoneNo>
</charge>
</Charges>
<FRNo>99988881111</FRNo>
<address>New YORK</address>
<amount>111</amount>
<DN>100000</DN>
<name>Rite</name>
<phoneNo>4444000012</phoneNo>
<tax>8.0</tax>
</File>
</Files>
像这样我有10k的记录。我想我们必须在ETL工作中做一些修改。如有任何其他信息,请与我联系。
目前,Amazon Athena不支持XML文件格式。您可以在此处找到支持的格式列表:https://docs.aws.amazon.com/athena/latest/ug/supported-format.html
由于AWS Glue支持XML作为ETL输入格式(https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html),因此您可以先将数据从XML转换为JSON,然后使用Athena查询JSON数据。