etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

Airflow DAG 运行成功,但任务失败

我正在尝试在 Docker 上运行的 Airflow 上运行一个简单的 DAG。 我有两个 python 脚本,第一个脚本使用 API 调用获取数据,第二个脚本将数据推送到 google 表格中。 ...

回答 1 投票 0

如何在 informatica powercenter 中基于空键查找表

大家好我有2张桌子 表格1 ---------------- 列1 列2 列3 空 1 更新 123 1 年 159 2 楼 表2 ---------------------- 列1 列2 列3 空 1 个 123 1 兹 我想要我的标签...

回答 2 投票 0

如何将数据从 Glue 移动到 Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案,并认真考虑将 Glue 用于我们的初始 ETL。目前 Glue 支持 JDBC 和 S3 作为目标,但我们的下游

回答 5 投票 0

如何将awsglue文件输出写入特定名称

我有一个 awsglue python 作业,它连接两个 Aurora 表并将输出以 json 格式写入/接收到 s3 存储桶。工作进展顺利,符合预期。默认情况下,输出文件写入 s3 buc...

回答 2 投票 0

如何使 Apache Airflow 中的 DAG 像简单的 cron 作业一样运行?

Airflow 调度程序在过去的几天里让我有点摸不着头脑,因为即使在 catchup=False 后它也会回填 dag 运行。 我的时区感知 dag 的开始日期为 13-04-2021 19:30 PST 或 14-04-2...

回答 2 投票 0

尝试连接到 Matillion 中的 RDS 查询时出错

我已在 AWS RDS 中创建了一个 postgres 数据库,并能够使用 Dbeaver 连接到它。但是,当尝试使用 RDS 查询在 Matillion 中连接它时,它会出现此错误。 致命:没有 pg_hba.conf 条目...

回答 1 投票 0

从多个来源构建维度模型

我有一个从多个来源(在线和零售)构建的维度模型。我有以下维度 - 日期、团队成员、部门、商店。和fct - 销售。 功能表 日期_id 团队成员_id 部门ID

回答 1 投票 0

Dynamodb 到 starrocks etl

我需要将一组表从 DynamoDB 提取到 StarRocks。有人使用 StarRocks Load 工具来完成此任务吗?如果是这样,你能分享一下如何做吗? 第二个相关问题:有些表格非常

回答 1 投票 0

我在尝试运行作业时遇到启动错误

因此,我尝试在 AWS 上运行作业,但每次运行都会失败,并收到以下错误: 我不确定该去哪里查看或问题出在哪里。我是新人,仍在学习,请指导

回答 1 投票 0

Ssis sql执行任务存储在变量中

我正在尝试使用 ssis 将最新日期存储在变量中。我在sql查询中有这个 从 \[Sheet1$\] 选择 max(\[update_date\]) 作为最新日期 结果集是单行,我的变量名称是 user::n...

回答 1 投票 0

Ssis 查找列中具有最大值的行

我需要帮助在 ssis 中查找具有最新日期的行。我有 Excel 文件,我需要在“update_date”列中找到具有最新日期的行,然后将该行导入数据库中。怎么才能找到

回答 1 投票 0

Kiba ETL 和法拉第请求

我正在做一个有CDC概念的项目。它从数据库中读取更改并将事件推送到rabbitmq队列(它使用debezium)。 之后我使用 KibaETL 处理事件消息

回答 1 投票 0

SSIS包运行但未部署会影响服务器吗?

我是 SSIS 新人。我调整了一个SSIS包。跑了。都是绿色的。然后我想我部署到服务器数据库了。那天,当我查询数据库时,它显示了新结果而不是旧结果

回答 1 投票 0

在股市数据中添加缺失的日期行以保持 pandas 数据框架的连续性

所以我有大约13年的每日低点高点收盘的股市数据。问题是市场有时会在中间休市,因此周一到周五可能不会连续出现......

回答 2 投票 0

在“设置值”步骤中将参数从 SQL Server 代理作业传递到 SSIS 包

我有一个 SSIS 包,它将在另一个数据库中运行,并且有一些参数取决于将要运行的环境(数据库名称、Excel 文件的文件路径、服务器...

回答 2 投票 0

根据同一表中另一列的值更新表中的列

我正在尝试更新下表中的 order_date 列。要求如下:对于每个 Med_Number,order_date 必须是最早/初始 transaction_Date。 Med_numbe 的示例...

回答 1 投票 0

如何在我的数据库中确定并实现3NF?

创建表 season22_23.stands ( 团队 VARCHAR(35) 主键, 位置 INT 唯一, 播放 INT NOT NULL, 赢得了 INT NOT NULL, 绘制的 INT NOT NULL, 丢失 INT NOT NULL, 果阿...

回答 1 投票 0

错误:运行 abbreviation_column_method 时。失败,但有异常:列不可迭代

缩写映射 = { “E”:“欧洲”, “A”:“美国/加拿大”, “S”:“南美洲”, “O”:“澳大利亚...

回答 1 投票 0

psycopg2.OperationalError:连接到“default-workgroupxxx.redshift-serverlessx”(172.31.1.60)的服务器,端口 5439 失败:连接超时

我正在尝试使用 python psycopy2 将数据加载到 AWS Redshift Serverless #从仓库接口导入仓库 导入boto3 从 dotenv 导入 load_dotenv 导入操作系统 导入psycopg2 #任何文件...

回答 1 投票 0

ETL 中的分层数据

我是 ETL 工具的新手,但我发现它们都适用于平行模型。 IE。如果您的数据需要一些图形对象转换(即检查父字段或其他

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.