AWS Athena。无法使用CSV清单作为位置

Question

我正在尝试在Athena中创建一个外部表，问题是s3存储桶在同一个文件夹中有不同的文件，因此我无法将该文件夹用作位置。

我无法修改s3文件的路径，但我有一个CSV清单，我试图将其用作位置，但Athena不允许我这样做。

CREATE EXTERNAL TABLE `my_DB`.`my_external_table`(
    column1 string,
    column2 string
  )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   'separatorChar' = ',',
   'quoteChar' = '\"',
   'escapeChar' = '\\'
   )
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  's3://mys3bucket/tables/my_table.csvmanifest'
TBLPROPERTIES (
  'has_encrypted_data'='false', 
  'skip.header.line.count'='1')

任何使用我的清单的想法？或者没有雅典娜的另一种解决方法？使用Athena的目的是避免从CSV获取所有数据，因为我只需要很少的记录

Answer 1

您需要对CREATE TABLE声明进行一些更改：

使用'org.apache.hadoop.hive.ql.io.SymlinkTextInputFormat'作为你的INPUTFORMAT
确保您使用LOCATION语句指向一个文件夹

所以你的陈述如下：

CREATE EXTERNAL TABLE `my_DB`.`my_external_table`(
    column1 string,
    column2 string
  )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   'separatorChar' = ',',
   'quoteChar' = '\"',
   'escapeChar' = '\\'
   )
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.SymlinkTextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  's3://mys3bucket/tables/my_table/'

并且s3://mys3bucket/tables/my_table/将在其中包含一个文件，其中包含您要查询的CSV文件的S3路径 - 每行一个路径。我不确定skip.header.line.count设置是否会对清单文件本身或CSV文件进行操作，因此您必须进行测试。

或者，如果您的文件数量有限，则可以使用S3 Select查询这些文件中的特定列，一次一个。使用AWS CLI，提取第二列的命令如下所示：

aws s3api select-object-content \
  --bucket mys3bucket \
  --key path/to/your.csv.gz \
  --expression "select _2 from s3object limit 100" \
  --expression-type SQL \
  --input-serialization '{"CSV": {}, "CompressionType": "GZIP"}' \
  --output-serialization '{"CSV":{}}' \
  sample.csv

（免责声明：AWS员工）

AWS Athena。无法使用CSV清单作为位置

问题描述投票：0回答：1

1个回答

最新问题

AWS Athena。无法使用CSV清单作为位置

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1