etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

每当文件移动到特定文件夹时,如何使用 talend 自动执行上传过程

我对 ETL 的经验为零。 每当文件(.csv)移动到特定文件夹时,都应该将其上传到 SalesForce 我不知道如何获得此自动化流程。 我希望我说得足够清楚。 我

回答 2 投票 0

当用Python处理一个巨大的CSV时,它突然停止了,“killed”是什么意思?

我有一个Python脚本,它导入一个大的CSV文件,然后计算文件中每个单词的出现次数,然后将计数导出到另一个CSV文件。 但正在发生的事情是......

回答 6 投票 0

尝试读取 Char(50) 数据类型列的前 9 个位置

我正在尝试比较两列,其中一列为 Column1=Char(9),另一列为 Column2=Char(50)。需要做Column1 = Column2,但我只需要读取column2的第1个9个位置来完成相等的乐趣...

回答 1 投票 0

如何验证(Excel - MS AzureSQL)ETL 中的日期? - 微软Azure数据工厂

我正在针对 MS Azure 数据工厂的预算使用简单的 ETL。该管道从 Excel 获取源,并在 MS Azure SQL 数据库上有一个接收器。 已经完成集成并且可以工作了,b...

回答 1 投票 0

无法在 Pentaho Data Integration 9.2 中运行作业(kjb)

我尝试使用pentaho 9.2运行作业,但在按厨房评论运行时没有选择作业 ./kitchen.sh -rep=repo1 -file=/var/lib/jenkins/project/path/etl/Job1.kjb Job1.kjb 包含多个...

回答 2 投票 0

GCSToBigQueryOperator 在 python 运算符中不起作用

当我使用 GCSToBigQueryOperator 时,它可以工作,但是放入函数内部并从 python 运算符调用会出现以下错误; 文件“/home/airflow/.local/lib/python3.7/site-packages/airflow/prov...

回答 1 投票 0

为什么即使分支操作符返回其任务 ID,此 DAG 也会跳过任务?

我在 Airflow 中有以下 DAG: validate_and_prepare_config>>skip_detect_task>>[摄取,检测] 检测>>导出 摄取>>skip_decrypt_task>>[d...

回答 1 投票 0

比较行以仅发送 Informatica 中的特定行

我需要有关如何在 informatica powercenter 中解决以下问题的指导。 我的源平面文件。 |学生|主题|PF| |1|科学|失败| |1|数学|及格| |2|科学|失败| 我需要应用逻辑,如果 a

回答 1 投票 0

数据转换非常棘手的问题

我想根据以下规则选择数据并添加一个名为“检查”的新列: 对于每个“consumer”列,如果消费者没有 master_consumer 值(在

回答 1 投票 0

SQL Server 数据转换非常棘手的问题

我想根据以下规则选择数据并添加一个名为“检查”的新列: 对于每个“consumer”列,如果消费者没有 master_consumer 值(在

回答 1 投票 0

SSIS ForEach 循环未迭代文件夹中的所有项目

我在一个文件夹中有 4 个 Excel 文件。 2 个有同名的单页,另外 2 个各有 2 张(我想要的数据具有相同名称的工作表)。 我在 SSIS 中使用了 ForEach 循环来...

回答 1 投票 0

验证增量更新插入数据

我正在从 Salesforce 读取数据,使用 pyspark SQL 和 ADF 管道执行增量更新插入...我想在更新插入发生时验证源和目标之间的数据,我怎样才能实现...

回答 1 投票 0

Apache Airflow 多用户环境

我正在尝试为我的数据工程团队创建一个系统或环境。 要求是: 它必须在本地托管。 它应该有调度。 用户应该能够编写代码

回答 1 投票 0

AB Initio 中串行文件和多文件的区别

Ab Initio 中的串行文件和多文件有什么区别?

回答 3 投票 0

避免 Spark 数据框中的惰性求值

我有文件列表,我对它们执行以下操作 导入 org.apache.spark.sql.*; 为(文件文件:文件){ df = Spark.read.csv(文件) df = df.withColumn("last_update_date",

回答 1 投票 0

Pentaho ETL 与 postgreSQL

我正在使用 Pentaho 进行 ETL,其中使用了多个转换以及执行这些转换的作业。但是当过程中出现错误时,之前没有进行的转换...

回答 1 投票 0

SSIS 错误:找不到列“columnX”的分隔符

这个问题之前曾在这里被问过,但提出的解决方案似乎对我不起作用。 我正在尝试导入一个文本文件管道分隔文本限定符“。SSIS 包正在返回...

回答 9 投票 0

无法让 SSIS 脚本任务工作

我觉得我缺少一些配置或其他东西,因为我已经遵循了大量的在线教程,但无法获得任何脚本任务的示例。我无法调试错误,要么是...

回答 4 投票 0

错误:0x1 at XX:调用目标已引发异常

我正在尝试使用 SSIS 中的 C# 任务脚本将文件从 FTP 服务器复制到本地驱动器。该脚本在 SQL Studio 2008 R2 中运行良好,但是使用 SQL SSDT (SQL Ser...

回答 1 投票 0

调用目标已引发异常 - SSIS 脚本任务错误

我有以下脚本任务,使用 C# 刷新 SSIS 包中 Excel 中的数据透视表。该包在 Visual Studio 以及包实用程序中运行良好。但是当我部署这个

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.