ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。
将错误日志从我的 cTalendJob 检索到我的 ESB 路由
这是我的问题: 我有一个带有 cTalendJob 组件的 ESB 路由。 我收到来自 Cfile 的消息,并且我的作业(在我的 cTalendJob 中)正常工作。 我想从 ESB 路由中的 cTalendJob 检索错误(我...
从 Oracle 到 SQL Server 的数据流任务中源和目标的动态列映射
Oracle 中有大约 5000 个表,SQL Server 中也有同样的 5000 个表。每个表的列经常变化,但在任何时间点源列和目标列始终是相同的...
如何使用零 ETL 将数据传输到 Redshift 中的可写数据库
我使用 Zero-Etl 将数据从 Aurora 移动到 Redshift。但这会将数据移动到只读数据库。然后如何将我的数据移动到完全访问数据库? 我尝试过创建一个物化...
“[Informatica][ODBC Oracle 有线协议驱动程序] 编号包含无效字符
当我要求 DBA 制作 Oracle 架构的副本(我已经在 Informatica 服务器端建立了 ODBC 连接)时,我得到了以下信息: 我认为这是由于我的 DBA 创建方式所致...
我认为,我正在尝试实施一个非常简单的过程,但我真的不知道什么是最好的方法。 我想从 S3 读取一个大的 csv(大约 30gb)文件,进行一些转换并加载它...
我们想要使用 Polars 加载 22GB(10M 行和 65 列)的 JSON 文件,但在运行collect() 时内存不足,导致程序崩溃。我们使用 pl.scan_ndjson 来...
读取 S3 目录中的多个 json 文件然后将它们加载到 MySQL 表的最佳方法是什么?
我有一个包含 40k++ json 文件的 S3 文件夹,其中每个文件都具有以下格式: [{“AAA”:“XXXX”,“BBB”:“XXXX”,“CCC”:“XXXX”}] 我的目的是读取这些 json 文件(在一个 S3 文件夹中),
我有一个 SSIS 包,它从数据库写入 csv 文件,将它们复制到几个位置,然后通过电子邮件发送成功消息。其过程是: 将公共文件位置从数据库检索到
有点像pentaho新手,所以请告诉我这是否没有意义/不可能: 我正在尝试将表的内容从数据库导出到 .csv,其中列可能会随着时间的推移而更改。
执行我的包,我看到以下错误。源(平面文件)中的 EMP ID 为 DT_STR(50) 并将其加载到表中: EMP_ID int 非空列 使用数据转换任务我正在转换它...
使用 AWSglue 连接到“本地”postgresql 数据库
我有一个 PostgreSQL 数据库,它实际上是“本地”的,但我有凭据和 JDBC 连接字符串。我想阅读 AWSglue 上的表格并将其在工作中用作源,然后写信给...
我只是不知道从哪里开始 ETL 冒险。我有一个由过时的 ERP 软件提供的多行标题杂乱数据集。我只需要清理它即可适合基本的数据透视/vlookups ...
Power Query `List.Generate` 运行太慢
TL;博士 如何更快地计算 Power Query 中的运行总和?我使用了表缓冲和 List.Generate 但它仍然太慢。 细节 我有一个这样的表: 日期时间 瓦尔 最大值 其他列 202...
Spark 中的 StreamQueryListener 不执行 onQueryProgress() 中的代码
我正在从 Databricks 增量表作为流读取数据并将其写入另一个增量表(使用屏幕截图中的控制台以便于调试),我想使用 StreamingQueryListener(...
我正在尝试使用 INSERT 和 UPDATE 而不是使用 MERGE 来实现 SCD2。如果 id 不存在,我需要将源表中的新行插入到目标表中,同时使...
在 SSIS 中将日期 DD.MM.YYYY hh:mm:ss 转换为 YYYY-MM-DD
我正在开发一个SSIS包,它从SAP读取数据。我创建了 ADO.Net 源,它从 ODBC 连接读取数据。 从 SAP 数据中,有一个表,其中包含日期列...
SSIS 事件处理程序:无法访问 ReadOnlyVariables 中的 OnError 系统变量
我正在尝试为我的 SSIS 包设置一个“OnError”事件处理程序,但遇到了问题。与“OnError”事件相关的所有系统变量的范围都在“
如何使用数据目录表检索在 AWS Glue Visual ETL 中读取的 CSV 文件的文件名并处理单个文件的验证错误?
我正在使用 AWS Glue Visual Studio ETL 处理存储在 S3 存储桶中的 CSV 文件。这些文件在 Glue 数据目录中注册,并在 ETL 作业期间作为单个 DynamicFrame 读取。我想要: -
我正在 Datastage 中使用顺序文件读取文件,并且正在使用转换器对数据进行一些转换,我想将当前行与前一行进行比较,以检查值...
我的 csv 文件中有一个名为 DateOfBirth 的列,其中包含 Excel 日期序列号日期 例子: 36464 37104 35412 当我在 Excel 中格式化单元格时,这些单元格将转换为 36464 => 1/11...