etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

使用 ScriptTransformRecord 将时间戳值更改为日期

你好,我正在尝试使用 apache nifi 中的 python y ScriptTransformRecord 进程将 json 中的数据从时间戳转换为日期,我该怎么做? { “印象_历史_帖子_看过”...

回答 1 投票 0

带有连接器的 ETL 工具 [1c]:ERP

我正在尝试识别具有开箱即用连接器的 ETL 工具,用于连接到作为 [1c]:ERP 后端数据库的 SQL Server 数据库。这是为了获取数据,使 CDC 等能够将数据提取到

回答 1 投票 0

尝试在 Airflow 上运行 python 脚本

我正在尝试在 Airflow 中运行 DAG,它将在我的环境中执行 Python 脚本。我测试了与文件同一目录下的命令,逻辑似乎是正确的,但在 Airflow 中...

回答 1 投票 0

目录中不存在胶水表

我正在将 json 文件转换为 parquet 格式,但收到错误“Glue Table 不存在”以下是代码: 将 awswrangler 导入为 wr 将 pandas 导入为 pd 导入 urllib.parse 小鬼...

回答 1 投票 0

气流传感器不完整文件列表

我真的很想知道,当文件未完全复制/加载到目标数据存储时,气流传感器如何工作。举个例子:我们有一个文件系统,传感器检查其中的文件。我们...

回答 2 投票 0

使用 JOLTTRANSFORMJSON APACHE NIFI 将属性添加到我的 JSON 文件

我正在尝试使用apache nifi来练习转换数据,我一直在尝试使用GetFile来获取我的4个JSON文件,我的目标是转换这4合1,但对我来说很重要的是要记住...

回答 1 投票 0

记录 ETL 作业的方法

我得到的问题可能不太笼统,所以对于 StackOverflow 来说不是最好的 - 对此感到抱歉。然而,我正在谷歌搜索答案,但没有找到任何答案。 在我们的 DWH 项目中(AWS S3 + Redshift +

回答 1 投票 0

Pyspark CI/CD 管道

目前正在学习PySpark进行ETL操作。在这里,我有一个问题如何为 PySpark 脚本制作标准管道。我正在使用 Airflow 在 Kubernetes 中部署 PySpark 脚本,我...

回答 1 投票 0

ora2pg 将一列映射为 2 列

有没有办法将一列映射为两列? 例如,在源中我有一个列firstName,在目的地我有一个列firstName 和lastName。我想将源代码拆分...

回答 1 投票 0

Airflow DAG 运行成功,但任务失败

我正在尝试在 Docker 上运行的 Airflow 上运行一个简单的 DAG。 我有两个 python 脚本,第一个脚本使用 API 调用获取数据,第二个脚本将数据推送到 google 表格中。 ...

回答 1 投票 0

如何在 informatica powercenter 中基于空键查找表

大家好我有2张桌子 表格1 ---------------- 列1 列2 列3 空 1 更新 123 1 年 159 2 楼 表2 ---------------------- 列1 列2 列3 空 1 个 123 1 兹 我想要我的标签...

回答 2 投票 0

如何将数据从 Glue 移动到 Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案,并认真考虑将 Glue 用于我们的初始 ETL。目前 Glue 支持 JDBC 和 S3 作为目标,但我们的下游

回答 5 投票 0

如何将awsglue文件输出写入特定名称

我有一个 awsglue python 作业,它连接两个 Aurora 表并将输出以 json 格式写入/接收到 s3 存储桶。工作进展顺利,符合预期。默认情况下,输出文件写入 s3 buc...

回答 2 投票 0

如何使 Apache Airflow 中的 DAG 像简单的 cron 作业一样运行?

Airflow 调度程序在过去的几天里让我有点摸不着头脑,因为即使在 catchup=False 后它也会回填 dag 运行。 我的时区感知 dag 的开始日期为 13-04-2021 19:30 PST 或 14-04-2...

回答 2 投票 0

尝试连接到 Matillion 中的 RDS 查询时出错

我已在 AWS RDS 中创建了一个 postgres 数据库,并能够使用 Dbeaver 连接到它。但是,当尝试使用 RDS 查询在 Matillion 中连接它时,它会出现此错误。 致命:没有 pg_hba.conf 条目...

回答 1 投票 0

从多个来源构建维度模型

我有一个从多个来源(在线和零售)构建的维度模型。我有以下维度 - 日期、团队成员、部门、商店。和fct - 销售。 功能表 日期_id 团队成员_id 部门ID

回答 1 投票 0

Dynamodb 到 starrocks etl

我需要将一组表从 DynamoDB 提取到 StarRocks。有人使用 StarRocks Load 工具来完成此任务吗?如果是这样,你能分享一下如何做吗? 第二个相关问题:有些表格非常

回答 1 投票 0

我在尝试运行作业时遇到启动错误

因此,我尝试在 AWS 上运行作业,但每次运行都会失败,并收到以下错误: 我不确定该去哪里查看或问题出在哪里。我是新人,仍在学习,请指导

回答 1 投票 0

Ssis sql执行任务存储在变量中

我正在尝试使用 ssis 将最新日期存储在变量中。我在sql查询中有这个 从 \[Sheet1$\] 选择 max(\[update_date\]) 作为最新日期 结果集是单行,我的变量名称是 user::n...

回答 1 投票 0

Ssis 查找列中具有最大值的行

我需要帮助在 ssis 中查找具有最新日期的行。我有 Excel 文件,我需要在“update_date”列中找到具有最新日期的行,然后将该行导入数据库中。怎么才能找到

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.