只需将新数据从 Cloud SQL 导入 BigQuery 即可?

问题描述 投票:0回答:2

我的情况是:
我想安排定期将数据从 Cloud SQL 更新到 BigQuery。 Cloud SQL 上的表的数据会定期更新,并且可以编辑该表中的旧数据。该表大约有 20 列。

说到更新计划,我希望在 Cloud SQL 和 BigQuery 中的表之间同步。
如何在 BigQuery 中添加新数据、更新最近编辑的数据以及删除 Cloud SQL 中不再存在的数据?

目前我每次去更新时间表时都使用覆盖此表的方式。
我仍然没有一个很好的解决方案来在查询时保存数据。

mysql google-bigquery google-cloud-sql
2个回答
1
投票

为此,您可以将 Cloud SQL 设置为 Big Query 上的外部数据源

这样,数据将在 Big Query 中自动保持更新,因为它驻留在云 SQL 中。 这实际上会降低您的账单金额,因为数据不会重复,但对外部数据源执行的查询比数据驻留在 BigQuery 中时要慢一些。

要执行此操作,您可以按照指南此处进行操作,我正在处理这篇文章中的一般步骤。

  • 在此处启用 BigQuery Connection API
  • 确保您的 Cloud SQL 实例具有公共 IP,因为 BigQuery 外部源仅支持公共 IP 连接。
  • 转到:
  • https://console.cloud.google.com/bigquery
  • 单击
  • +添加数据并选择外部数据源(这将在窗口右侧弹出一个菜单)
  • 选择 CloudSQL 类型(MySQL 或 PostgreSQL)
  • 为此连接创建连接ID
  • 选择连接位置、友好名称和描述
  • Cloud SQL 实例 ID 上,复制您的云 SQL 实例的全名,格式为 project-id:location-id:instance-id
    
    
  • 在数据库名称、用户名和密码中输入您的cloudSQL数据库的登录数据
  • 点击创建连接
这会将云 SQL 实例中的数据链接到 Big Query,以便您可以使用 BigQuery 引擎来分析云 SQL 实例中的数据,而无需将数据复制到 BigQuery 并确保数据始终更新。


© www.soinside.com 2019 - 2024. All rights reserved.