etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

AWS MWAA -- dags 未出现在 Airflow UI 中

我已经创建了一个 AWS MWAA 环境,并正确地将其指向 S3 存储桶以及 S3 存储桶内的“dags”文件夹。 我创建了一个简单的 dag 文件(python)并将其添加到...

回答 1 投票 0

逻辑应用程序::将文件从AWS S3移动到Blob存储

我正在尝试在AWS S3和Azure Blob存储之间创建完美的定向同步。 动作是这样的: 每 5 分钟检查一次 AWS S3 存储桶中的对象是否更新: 如果是这样,请接受...

回答 1 投票 0

对于具有许多任务的工作流程来说,是 apache Airflow 的更快替代方案

我目前使用 Apache Airflow 来运行数据聚合和 ETL 工作流程。我的工作流程相当复杂,一个工作流程有 15-20 个任务并且有分支。我可以将它们结合起来,但这样做

回答 2 投票 0

Hive 和 Spark 之间的十进制解释差异

我正在使用 Hive 和 Spark 查询同一个 Hive 表。 这是查询: 从利息中选择余额、利息 WHERE acct_n = 123 蜂巢: 平衡 兴趣 1000000 233.47 火花: 平衡 INT...

回答 1 投票 0

SSIS项目部署到数据库后向事实表和维度表添加新列

我需要知道SSIS解决方案部署到数据库后,我们可以通过哪些方法向事实表和维度表添加新列到数据仓库。 我开发了

回答 1 投票 0

Spark 流式或批处理

我正在尝试构建一个应用程序,我需要偶尔读取另一个应用程序放置的文件,每天一次或两次。我必须创建一个 Spark ETL 来监听这个文件夹。 ...

回答 1 投票 0

根据文件名中提供的日期戳选择最新文件

我必须选择最新的文件并将其复制到目标文件夹。例如,下面是我在 C:\Users\ 中的文件,日期戳位于第三个下划线之后,即下面第一个文件中的 20240210....

回答 1 投票 0

如何使用 sqlalchemy 将 python 连接到数据库?

我正在尝试创建与名为 etl_project 的数据库的连接,但由于某种原因,我不断收到模块未找到错误 ModuleNotFoundError Traceback(最近调用

回答 0 投票 0

访问 Kettle 中的上一行

在 Pentaho ETL Kettle 中,我想一步访问上一行。 让我们将数据流声明为 myMat: 我的垫子: 列 0 列 1 第 0 行:15 个 第 1 行:10 b 第 2 行:24 你好 第三行:11 再见 我会...

回答 3 投票 0

Talend Open Studio - 错误 (sun.misc.Unsafe.defineClass(java.lang.String,[B,int,int,java.lang.ClassLoader,java.security.ProtectionDomain))

首次启动 Talend Open Studio 时出现错误 java.lang.NoSuchMethodException: sun.misc.Unsafe.defineClass(java.lang.String,[B,int,int,java.lang.ClassLoader,java.security.ProtectionDomain) 在

回答 1 投票 0

Talend:如何修复方法代码超过 65535 字节限制

我有一组 5 个表,大约有 200 万行和 450 列 我的工作是这样的: tDBInput 1 ---tMap----- tDBInput 1 ---tMap----- tDBInput 1 ---tMap---tUnite---tDBOutput

回答 2 投票 0

ADF :: 如果接收器中的文件不在源中,请删除它们

我偶然发现了一个很好的 ADF 模板,名为“仅按 LastModifiedDate 复制新文件”。 此 ADF 模板允许同步两个 Blob 存储,但只有一种方式 A --> B。模板工作得相当好....

回答 1 投票 0

Databricks 中的 df.display() 和 df.show() 错误

我正在向您寻求帮助,以解决我在 Databricks 环境中遇到的一些问题。我希望社区能够提供一些指导来帮助我解决这些问题。 1. 错误...

回答 1 投票 0

BigQuery - 根据使用复杂 CTE 的查询结果创建表?

我有一个包含大型基础数据集的多 CTE 查询,该查询运行过于频繁。我可以创建一个查询结果表供人们使用,并每天刷新该表。但我是

回答 2 投票 0

保持 ETL 暂存中不同来源的数据链接

我正在尝试构建一个小型的、手动编写的ETL流程,将来自不同来源的数据加载到星型数据仓库(DWH)中,关心来自不同大学的学生。当前...

回答 1 投票 0

如何使用最少数量的 Web 活动在 ADF 管道中发送通知?

我正在使用 Web Activity 发送 MS Teams 中运行的管道的通知。我的要求是使用最少数量的Web活动来降低成本。同时我希望收到通知,以防万一...

回答 1 投票 0

无法将架构从 Azure SQL 数据库导入到数据工厂

每次我尝试使用 Azure Data Factory 从 Azure SQL 加载表时,都会遇到加载架构问题,我真的不知道是什么原因造成的。解决方案和建议将非常重要

回答 1 投票 0

气流:无法将数据推回管道

我设置了一个工作流程,其中包含两个任务: read_dataset_task,我从数据集中读取数据,并将数据推送到管道中 Primary_transform_task,我在其中预处理数据,即清理...

回答 1 投票 0

从 mongo 导入的包含 6 M 条记录的 pyspark 数据帧有两条记录为字符串 ('Error...' ),其余为 structytpe。无法写入 s3

我必须使用 AWS Glue 从 mongodb 导入数据。我成功导入glue动态框架中的数据并将glue df转换为spark df。结构数据类型中有一个字段从

回答 1 投票 0

如何克服 AWS Glue 的极端内存限制?

一个 Python Shell 作业不能使用多个 DPU。这意味着它的内存限制为 16 GB。 今天早些时候,我将我认为中等的 ETL 任务连接到具有 1 个 DPU 的 AWS Glue。这是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.