Terraform AWS Athena将Glue目录用作db

Question

我很困惑我应该如何使用terraform将Athena连接到我的Glue Catalog数据库。

我用

resource "aws_glue_catalog_database" "catalog_database" {
    name = "${var.glue_db_name}"
}

resource "aws_glue_crawler" "datalake_crawler" {
    database_name = "${var.glue_db_name}"
    name          = "${var.crawler_name}"
    role          = "${aws_iam_role.crawler_iam_role.name}"
    description   = "${var.crawler_description}"
    table_prefix  = "${var.table_prefix}"
    schedule      = "${var.schedule}" 

    s3_target {
      path = "s3://${var.data_bucket_name[0]}"
  }
    s3_target {
      path = "s3://${var.data_bucket_name[1]}"
  }
 }

创建一个Glue DB和爬虫来抓取一个s3桶（这里只有两个），但我不知道如何将Athena查询服务链接到Glue DB。 In the terraform documentation for Athena，似乎没有办法将Athena连接到Glue cataglog但只能连接到S3 Bucket。然而，显然，Athena can be integrated with Glue。

如何将Athena数据库变形为使用我的Glue目录作为数据源而不是S3存储桶？

Answer 1

我们当前的基本设置是让Glue抓取一个S3存储桶并在Glue DB中创建/更新表，然后可以在Athena中查询，如下所示：

抓取工具角色和角色政策：

IAM角色的assume_role_policy仅需要Glue作为主体
IAM角色策略允许对Glue，S3和日志执行操作
胶水动作和资源可能会缩小到真正需要的（这是正在进行的工作）
S3操作仅限于爬网程序所需的操作

resource "aws_iam_role" "glue_crawler_role" {
  name = "analytics_glue_crawler_role"

  assume_role_policy = <<EOF
{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Action": "sts:AssumeRole",
      "Principal": {
        "Service": "glue.amazonaws.com"
      },
      "Effect": "Allow",
      "Sid": ""
    }
  ]
}
EOF
}

resource "aws_iam_role_policy" "glue_crawler_role_policy" {
  name = "analytics_glue_crawler_role_policy"
  role = "${aws_iam_role.glue_crawler_role.id}"
  policy = <<EOF
{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "glue:*",
      ],
      "Resource": [
        "*"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetBucketLocation",
        "s3:ListBucket",
        "s3:GetBucketAcl",
        "s3:GetObject",
        "s3:PutObject",
        "s3:DeleteObject"
      ],
      "Resource": [
        "arn:aws:s3:::analytics-product-data"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "logs:CreateLogGroup",
        "logs:CreateLogStream",
        "logs:PutLogEvents"
      ],
      "Resource": [
        "arn:aws:logs:*:*:/aws-glue/*"
      ]
    }
  ]
}
EOF
}

S3铲斗，胶水数据库和抓取器：

resource "aws_s3_bucket" "product_bucket" {
  bucket = "analytics-product-data"
  acl = "private"
}

resource "aws_glue_catalog_database" "analytics_db" {
  name = "inventory-analytics-db"
}

resource "aws_glue_crawler" "product_crawler" {
  database_name = "${aws_glue_catalog_database.analytics_db.name}"
  name = "analytics-product-crawler"
  role = "${aws_iam_role.glue_crawler_role.arn}"

  schedule = "cron(0 0 * * ? *)"

  configuration = "{\"Version\": 1.0, \"CrawlerOutput\": { \"Partitions\": { \"AddOrUpdateBehavior\": \"InheritFromTable\" }, \"Tables\": {\"AddOrUpdateBehavior\": \"MergeNewColumns\" } } }"

  schema_change_policy {
    delete_behavior = "DELETE_FROM_DATABASE"
  }

  s3_target {
    path = "s3://${aws_s3_bucket.product_bucket.bucket}/products"
  }
}

Answer 2

我的Terraform代码中有很多错误。首先：

S3中的aws_athena_database code bucket参数指的是用于查询输出的存储桶，而不是表应该构建的数据。
我已经设置了我的aws_glue_crawler来写入Glue数据库而不是Athena数据库。事实上，正如Martin上面提到的那样，一旦正确设置，Athena就能够看到Glue db中的表格。
我的抓取工具没有附加正确的政策。最初，附加到爬虫角色的唯一策略是 resource "aws_iam_role_policy_attachment" "crawler_attach" { policy_arn = "arn:aws:iam::aws:policy/service-role/AWSGlueServiceRole" role = "${aws_iam_role.crawler_iam_role.name}" } 设置第二个策略明确允许所有S3访问我想要抓取的所有存储桶并将该策略附加到同一个爬网程序角色后，爬网程序成功运行并更新了表。

第二个政策：

resource "aws_iam_policy" "crawler_bucket_policy" {
    name = "crawler_bucket_policy"
    path = "/"
    description = "Gives crawler access to buckets"
    policy = <<EOF
{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "Stmt1553807998309",
      "Action": "*",
      "Effect": "Allow",
      "Resource": "*"
    },
    {
      "Sid": "Stmt1553808056033",
      "Action": "s3:*",
      "Effect": "Allow",
      "Resource": "arn:aws:s3:::bucket0"
    },
    {
      "Sid": "Stmt1553808078743",
      "Action": "s3:*",
      "Effect": "Allow",
      "Resource": "arn:aws:s3:::bucket1"
    },
    {
      "Sid": "Stmt1553808099644",
      "Action": "s3:*",
      "Effect": "Allow",
      "Resource": "arn:aws:s3:::bucket2"
    },
    {
      "Sid": "Stmt1553808114975",
      "Action": "s3:*",
      "Effect": "Allow",
      "Resource": "arn:aws:s3:::bucket3"
    },
    {
      "Sid": "Stmt1553808128211",
      "Action": "s3:*",
      "Effect": "Allow",
      "Resource": "arn:aws:s3:::bucket4"
    }
  ]
}
EOF
}

我相信我可以摆脱这个政策中的硬编码名称，但我还不知道如何做到这一点。

Terraform AWS Athena将Glue目录用作db

问题描述投票：6回答：2

2个回答

最新问题

Terraform AWS Athena将Glue目录用作db

问题描述 投票：6回答：2

2个回答

最新问题

问题描述投票：6回答：2