etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

Excel中的值出现在pandas数据框中的nan

我正在处理这个 csv 文件,其中有一个列,我可以在 csv 查看器中清楚地看到它的内容: 当我在 VSC 中打印行时,我得到以下信息: 但是当我打印数据框时我得到: 我去了

回答 1 投票 0

Snowflake SQL 从 Snowflake.account_usage.copy_history 视图中提取数据作为增量负载

我有一个要求,我试图从snowflake.account_usage.copy_history视图中提取所有雪花的复制历史数据作为增量加载,并使用控制表来存储当前的执行...

回答 1 投票 0

如何在redhat 8中安装infosphere datastage?

我正在寻求有关在 RedHat 8 系统上安装 InfoSphere DataStage 的指导。我对这个过程比较陌生,希望您能提供分步说明或任何有用的资源...

回答 1 投票 0

Azure 数据工厂管道是否可以动态设置数据流源和目标数据库

我有 3 个 Azure SQL 数据库,我想在它们之间同步数据。这 3 个数据库都具有相同的结构,它们是为 3 个环境设置的。 (开发、质量检查、产品)。 我想要一个单一的管道

回答 1 投票 0

如何使用 sqlalchemy 从 pandas 中的 sqlite db 检索数据?

我对Python不是很熟练,我有以下问题。 我正在尝试制作一个 python 脚本,从 yhaoo Finance 下载一些数据,如果没有可用的数据库,请创建它...

回答 1 投票 0

Postgres Logstash 上的自定义offseh 条件

我使用Logstash上的jdbc接口将Postgres的部分数据上传到ElasticSearch。是否可以将 Logstash 配置为使用 WHERE 而不是 OFFSET? 我的配置: 输入 { 文件 { 路径=...

回答 1 投票 0

Postgres Logstash 上的客户关闭条件

我使用Logstash上的jdbc接口将Postgres的部分数据上传到ElasticSearch。是否可以将 Logstash 配置为使用 WHERE 而不是 OFFSET? 我的配置: 输入 { 文件 { 路径=...

回答 1 投票 0

在数据流中使用多个链接服务,Azure 数据工厂

是否可以在 Azure 数据工厂中对源和接收器使用不同的链接服务?基本上数据流中有两个不同的链接服务? 通过使用“复制数据活动”我可以提取...

回答 1 投票 0

Bigquery 上 ETL 的最佳实践方法?

我想知道人们找到了哪些在 bigquery 上构建和管理 ETL 作业的最佳实践/工具。 目前我有很多 sql“模板”(由 l 可怕地参数化...

回答 2 投票 0

如何解决因文件丢失而导致 Talend 作业失败的问题

作业 tbl_IMDbBoxOfficeMojo_Franchises_list_mDB_job_new 由于缺少输入文件而无法执行。具体来说,这项工作是寻找几个与特许经营相关的 TSV 文件(例如,IMDb BoxOffi...

回答 1 投票 0

Pentaho 与 Java 应用程序集成

我在将 Pentaho 与我的 Java 应用程序集成时遇到一些问题。我目前正在使用 Java 11 和 Quarkus 3.X。 我的目标是创建一个 API 来触发 Pentaho 作业运行。我有水壶...

回答 1 投票 0

使用 ScriptTransformRecord 将时间戳值更改为日期

你好,我正在尝试使用 apache nifi 中的 python y ScriptTransformRecord 进程将 json 中的数据从时间戳转换为日期,我该怎么做? { “印象_历史_帖子_看过”...

回答 1 投票 0

带有连接器的 ETL 工具 [1c]:ERP

我正在尝试识别具有开箱即用连接器的 ETL 工具,用于连接到作为 [1c]:ERP 后端数据库的 SQL Server 数据库。这是为了获取数据,使 CDC 等能够将数据提取到

回答 1 投票 0

尝试在 Airflow 上运行 python 脚本

我正在尝试在 Airflow 中运行 DAG,它将在我的环境中执行 Python 脚本。我测试了与文件同一目录下的命令,逻辑似乎是正确的,但在 Airflow 中...

回答 1 投票 0

目录中不存在胶水表

我正在将 json 文件转换为 parquet 格式,但收到错误“Glue Table 不存在”以下是代码: 将 awswrangler 导入为 wr 将 pandas 导入为 pd 导入 urllib.parse 小鬼...

回答 1 投票 0

气流传感器不完整文件列表

我真的很想知道,当文件未完全复制/加载到目标数据存储时,气流传感器如何工作。举个例子:我们有一个文件系统,传感器检查其中的文件。我们...

回答 2 投票 0

使用 JOLTTRANSFORMJSON APACHE NIFI 将属性添加到我的 JSON 文件

我正在尝试使用apache nifi来练习转换数据,我一直在尝试使用GetFile来获取我的4个JSON文件,我的目标是转换这4合1,但对我来说很重要的是要记住...

回答 1 投票 0

记录 ETL 作业的方法

我得到的问题可能不太笼统,所以对于 StackOverflow 来说不是最好的 - 对此感到抱歉。然而,我正在谷歌搜索答案,但没有找到任何答案。 在我们的 DWH 项目中(AWS S3 + Redshift +

回答 1 投票 0

Pyspark CI/CD 管道

目前正在学习PySpark进行ETL操作。在这里,我有一个问题如何为 PySpark 脚本制作标准管道。我正在使用 Airflow 在 Kubernetes 中部署 PySpark 脚本,我...

回答 1 投票 0

ora2pg 将一列映射为 2 列

有没有办法将一列映射为两列? 例如,在源中我有一个列firstName,在目的地我有一个列firstName 和lastName。我想将源代码拆分...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.