etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

ADF :: 如果接收器中的文件不在源中,请删除它们

我偶然发现了一个很好的 ADF 模板,名为“仅按 LastModifiedDate 复制新文件”。 此 ADF 模板允许同步两个 Blob 存储,但只有一种方式 A --> B。模板工作得相当好....

回答 1 投票 0

Databricks 中的 df.display() 和 df.show() 错误

我正在向您寻求帮助,以解决我在 Databricks 环境中遇到的一些问题。我希望社区能够提供一些指导来帮助我解决这些问题。 1. 错误...

回答 1 投票 0

BigQuery - 根据使用复杂 CTE 的查询结果创建表?

我有一个包含大型基础数据集的多 CTE 查询,该查询运行过于频繁。我可以创建一个查询结果表供人们使用,并每天刷新该表。但我是

回答 2 投票 0

保持 ETL 暂存中不同来源的数据链接

我正在尝试构建一个小型的、手动编写的ETL流程,将来自不同来源的数据加载到星型数据仓库(DWH)中,关心来自不同大学的学生。当前...

回答 1 投票 0

如何使用最少数量的 Web 活动在 ADF 管道中发送通知?

我正在使用 Web Activity 发送 MS Teams 中运行的管道的通知。我的要求是使用最少数量的Web活动来降低成本。同时我希望收到通知,以防万一...

回答 1 投票 0

无法将架构从 Azure SQL 数据库导入到数据工厂

每次我尝试使用 Azure Data Factory 从 Azure SQL 加载表时,都会遇到加载架构问题,我真的不知道是什么原因造成的。解决方案和建议将非常重要

回答 1 投票 0

气流:无法将数据推回管道

我设置了一个工作流程,其中包含两个任务: read_dataset_task,我从数据集中读取数据,并将数据推送到管道中 Primary_transform_task,我在其中预处理数据,即清理...

回答 1 投票 0

从 mongo 导入的包含 6 M 条记录的 pyspark 数据帧有两条记录为字符串 ('Error...' ),其余为 structytpe。无法写入 s3

我必须使用 AWS Glue 从 mongodb 导入数据。我成功导入glue动态框架中的数据并将glue df转换为spark df。结构数据类型中有一个字段从

回答 1 投票 0

如何克服 AWS Glue 的极端内存限制?

一个 Python Shell 作业不能使用多个 DPU。这意味着它的内存限制为 16 GB。 今天早些时候,我将我认为中等的 ETL 任务连接到具有 1 个 DPU 的 AWS Glue。这是...

回答 1 投票 0

将经常更新的事实表插入数据仓库

我使用 SSIS 和 MSSQL 创建数据仓库。数据仓库的数据源是 Microsoft Dynamics GP ERP 数据。其中,有一个名为 SOP10100 和 SOP10200 的表(实时销售订单

回答 1 投票 0

使用python从excel模板中提取数据

我怎样才能提取这个excel文件中的重要信息,我正在使用python,但是如果我以传统方式使用pandas导入:pd.read_excel,结果是错误的,我

回答 1 投票 0

BCP 输入错误的整数数据

我正在运行 bcp 命令将一些测试数据从本地 Linux 加载到远程 mssql 数据库。数据是半随机生成的整数,用于测试目的。 /tmp/small_insert_test.csv 中的 bcp test_load -...

回答 1 投票 0

BCP 输入错误数据

我正在运行 bcp 命令将一些测试数据从本地 Linux 加载到远程 mssql 数据库。数据是半随机生成的整数,用于测试目的。 /tmp/small_insert_test.csv 中的 bcp test_load -...

回答 1 投票 0

继续使用静态分配容器的好处

我没有在代码中使用任何堆分配,使用移动语义有什么好处吗? 我是否应该移动任何东西? 模板 constexpr TIterator...

回答 1 投票 0

Flink - 如何将表结果转换为Datastream

我试图查询一个postgresql表,并将其转换为dataStream: StreamExecutionEnvironment bsEnv = StreamExecutionEnvironment.getExecutionEnvironment(); 流表环境 tEnv =

回答 1 投票 0

如何在 Apache Airflow 中的任务之间传输数据?

在airflow中,我有两个任务,第一个任务从API获取24x7数据并将其传递给第二个任务。但在这种情况下,当我的第一个任务连续运行时,它不会触发第二个任务...

回答 1 投票 0

Azure 数据工厂数据流测试连接 Spark 作业失败

我使用链接服务将Azure SQL 数据库连接到Azure 数据工厂数据流。 在 Azure 数据工厂中,链接服务连接已成功建立。 然而,当我做广告时...

回答 1 投票 0

AWS Glue 在顺序运行时输出空文件

我正在尝试自动化 ETL 管道,将数据从 AWS RDS MYSQL 输出到 AWS S3。我目前正在使用 AWS Glue 来完成这项工作。当我从 RDS 到 S3 进行初始加载时。它捕获了所有的数据...

回答 3 投票 0

如何在 Azure 数据工厂中运行 Python ETL 脚本并选择最佳方法?

我目前正在处理 ETL 流程,需要在 Azure 数据工厂 (ADF) 中运行 Python 脚本。该脚本涉及数据提取、转换和加载 (ETL) 任务。我知道...

回答 1 投票 0

Azure 数据工厂编辑数据流按钮不起作用?

在Azure数据工厂->管道->移动和转换->数据流任务中,我熟悉下面的“编辑数据流”按钮来配置数据流任务。但这不起作用

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.