google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

Power BI 数据流未获取“个人和组”SharePoint 列的所有 ID

我有一个数据流,它从“个人和组”SharePoint 列获取数据(拉入 ID),但它不会为列中具有名称的每个项目引入 ID。在某些情况下...

回答 1 投票 0

Azure 数据流中已使用 SInk 转换后如何修改文件?

使用数据流 连接到源 使用水槽。将所有 Excel 文件合并为一个 .csv 需要修改新创建的.csv文件 我现在如何修改新创建的 csv 文件并删除带有 NULL 的行...

回答 1 投票 0

选择所有参数电源自动化 - 报告生成器以共享点提取流程

我需要使用 Power Automate 将数据提取传送到共享点位置。 我有大约 200 个参数,我不想开始命名每个参数名称和值 200 次才能...

回答 1 投票 0

无法运行数据流管道 数据流管道失败。状态:失败,错误:无法打开文件:gs://

我在网上找到了一个演示,我正在尝试复制它。然而每当我跑步时 python pipeline.py --streaming --runner DataflowRunner \ --项目\ --temp_location gs://tweeps-s...

回答 1 投票 0

如何防止作业重新启动期间 GCP Dataflow 数据丢失(Flex 模板 SpanenrToBigQuery)

我将变更流数据从 Spanner 传输到 Big Query 中。我使用默认的 --template-file-gcs-location=gs://dataflow-templates-us-central1/latest/flex/Spanner_Change_Streams_to_BigQuery flex 模板...

回答 1 投票 0

了解响应为 json 数组时数据工厂数据流 REST 源行为

我试图了解 REST 源在数据工厂数据流中的工作原理。我将从一个简单的案例开始。 这是我的 API 的响应示例 (https://reqres.in/api/users): { “页面&...

回答 1 投票 0

为什么相同 Spanner 数据库的副本大小存在差异?

我在 Google Cloud Spanner 上有一个名为“decision”的数据库。 我已将此“决策”数据库导出到 Google Cloud Storage 存储桶。 然后我将导出的数据库导入到新的 Spanner

回答 1 投票 0

如何在Azure数据工厂数据预览中更改按数据选择行?

在Azure数据工厂管道的数据流中,我想在数据预览选项卡中预览特定时期的行。每当我刷新数据预览时,我都会看到一年前的示例数据,而...

回答 1 投票 0

使用嵌套函数在 Google Dataflow 上运行 Apache Beam 管道时出现名称错误

我正在使用 Python 开发 Apache Beam 管道,在 Google Dataflow 上运行管道时遇到 NameError。该错误特别提到“json_encoder”未定义......

回答 1 投票 0

GCP Dataflow 无法从写入该文件的 GCP 存储位置读取“pipeline.pb”文件

我正在尝试使用以下命令运行数据流管道: !python3 ~/pipelines/Beam/pipeline.py \ --project='project_id' \ --region='区域' \ --dataset_id='dataset_id' \ --

回答 1 投票 0

Google 数据流问题

我们正在 Google bigquery 上新实施 DataWareHouse,我们的所有源都位于 prim 数据库上。因此,我们使用 ETL 和 Maven 的数据流以及 Apache Beam SDK 来运行 30 个管道...

回答 1 投票 0

Azure 数据工厂删除 CSV 文件每一行中的字符

我有 4 列的 CSV 文件,标题的名称与我的 MS SQL 表类似。但每当我运行“复制数据”活动时,它都会显示此错误消息。 对目标的操作插入...

回答 1 投票 0

如何正确配置使用增量文件作为接收器的Azure数据工厂数据流?

我正在尝试将数据接收到增量文件。我想使用使用唯一 ID 列的插入和更新方法:(接收器设置) 每当允许更新方法时,就会出现 AlterRow 操作...

回答 1 投票 0

SSIS 包中的可重用块/数据作为输入输出参数

我正在开发一个将使用 2 个数据源的包:一个是 SQL Server,另一个是 Cobol。 目标是在开始时测试参数以选择要使用的良好序列。 一旦数据...

回答 1 投票 0

Airflow 任务失败,返回码 Negsignal.SIGKILL

您好 Stack Overflow 社区, 我正在 GCP Cloud Composer 上运行 Airflow(版本 2.5.3)DAG,其中有几个任务将触发基于 java 的数据流作业。任务的代码看起来像...

回答 1 投票 0

说明与 Cloud Dataflow 一起使用时 Google Cloud PubSub 的成本

有关 pubsub 定价的文档非常少。有人可以解释以下场景的成本吗? 每个事件的数据大小 = 0.5 KB 每天的数据大小 = 1 TB 只有一个公共...

回答 2 投票 0

启动数据流弹性模板时遇到问题

我在启动数据流弹性模板时遇到以下问题。 启动器容器中发生错误:模板启动失败。查看控制台日志 12月13日之前一切都很好,...

回答 4 投票 0

为什么我在 adf 数据流中的导入投影会以奇怪的格式重命名列?

为什么我在 adf 数据流中的导入投影会以奇怪的格式重命名列? 在重置数据流源的架构时,推断列如下(这也是期望的结果...

回答 1 投票 0

如何减少与上游和下游流数据流作业连接的GCP云SQL实例的存储?

我们在 GCP 中使用 Cloud SQL 实例,其中包含 15(SSD) 数据 (Postgress)。有一些流数据流作业将数据写入 Cloud SQL 的源架构,还有一些其他

回答 1 投票 0

Apache Beam BigqueryIO(Java)io.grpc.StatusRuntimeException:INVALID_ARGUMENT:创建 upsert 流需要主集群键

我正在使用apache beam java从一个bigquery表中读取并使用applyRowMutations()写入另一个bigquery表,但它不起作用。 我已经使用

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.