google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。


在数据流上运行自定义模板时出现“无法解析文件”错误

我正在尝试编写自定义模板来读取CSV并将其输出到另一个CSV。目标是在此CSV中选择所需的数据。当我在Web界面上运行它时出现以下错误...

回答 1 投票 4

从单个JSON创建并插入多行到PubQuery / Sub和Dataflow的BigQuery

我创建了一个Beam Dataflow管道,用于解析PubSub主题中的单个JSON:{“data”:“test data”,“options”:{“test options”:“test”,“test_units”:{...

回答 1 投票 1

Dataprep不起作用 - Cloud Dataflow Service Agent

我在服务帐户中删除用户服务 - [项目编号] @ dataflow-service-producer-prod.iam.gserviceaccount.com时犯了一个错误,我应该删除另一个用户。在那之后,Dataprep ......

回答 2 投票 2

使用数据流清理CSV文件中的数据

我试图从GCS读取一个CSV(带标题)文件,该文件有大约150列,然后是1.为特定列设置列数据2.用所有列的Null值更新NaN 3.编写csv ...

回答 1 投票 0

Apache Beam Python SDK中的Pub / Sub到Datastore Batch Dataflow作业可能吗?

我有一个Pub / Sub主题,它会定期(通常每隔几天或几周,但有时更频繁地)接收批量消息。我想开始批处理Dataflow工作来阅读这些......

回答 1 投票 1

当没有消息消耗时停止流式传输管道

我有一个流数据流管道作业,它从给定的pub-sub主题中读取消息。我知道捆绑包提交后会有自动确认。如何使管道停在哪里......

回答 1 投票 1

使用Dataflow API执行Dataprep模板可保存流程配方中包含的时间戳

我有一个云功能,它使用数据流API从我使用DataPrep创建的模板创建新作业。配方基本上清理了一些JSON对象,将它们转换为CSV格式,然后添加一个......

回答 1 投票 2

我如何获得可读文件?

我有一个目录,里面有99个文件,我想读取这些文件,然后将它们哈希到sha256校验和中。我最终想要将它们输出到具有键值对的JSON文件中,例如(...

回答 1 投票 0

数据流BigQuery插入作业立即失败,使用大数据集

我使用beam python库设计了一个beam / dataflow管道。管道大致执行以下操作:ParDo:从API中收集JSON数据ParDo:转换JSON数据I / O:写入转换后的...

回答 1 投票 0

数据流管道在Pub / Sub读取时停留

经过一天完全正常工作后,从Pub / Sub流式传输数据,扁平化数据并将行写入BigQuery; Dataflow Pipeline已开始报告如下错误:处理...

回答 1 投票 0

有没有办法在无限的源pcollection中设置时间戳?

我想在我的解决方案中将时间戳设置为字符串的无界pcollection pcollection的每一行是该行的一个字段中的一行csv具有时间戳,而其他字段如数字...

回答 1 投票 0

读取CSV并从Apache Beam写入BigQuery

我有一个GCS存储桶,我正在尝试读取大约200k文件,然后将它们写入BigQuery。问题是我在创建一个与代码兼容的PCollection时遇到了麻烦。我......

回答 1 投票 0

如何使用批处理从DataFlow中的PubSub读取

在Pubsub源代码的SDK 1.9.1中,有PubsubIO.Read.maxReadTime和PubsubIO.Read.maxNumRecords方法可用。这些方法允许从pubsub消息创建有界集合,它是......

回答 2 投票 0

Google Cloud Platform Pub Sub - Python客户端不发布消息

设置是这样的:我有一个主题设置来接收消息,然后我有一个使用Pub / Sub到GCS文本模板设置的Dataflow管道,它将消息转储到窗口文本文件中......

回答 1 投票 0

使用Python的Google数据流无法安装工作流程:退出状态1

我的Google Dataflow作业在本地运行本地运行程序,但无法构建其程序包以使用DataflowRunner运行管道。我在apache-beam [gcp] == 2.6.0上遇到这个问题同样......

回答 1 投票 0

用于流式传输的Google Cloud Dataflow,数据流何时会自动关闭并清理VM实例?

根据该文档,https://cloud.google.com/dataflow/docs/resources/faq“但是,一旦您的工作完成或失败,Cloud Dataflow服务将自动关闭并清理......

回答 1 投票 0

在Python中为GCP Dataflow作业指定机器类型

我有一个由Dataprep生成的Dataflow模板,我正在使用Composer(即Apache Airflow)执行它。该任务正在触发数据流作业,但随后失败并出现错误...

回答 2 投票 1

错误:消息:提供的源太多:15285。限制为10000

我目前正在尝试运行Dataflow(Apache Beam,Python SDK)任务,将> 100GB Tweet文件导入BigQuery,但遇到错误:消息:提供的源太多:15285。限制为10000. ...

回答 1 投票 1

Google Dataflow和Pubsub - 无法实现一次性交付

我正在尝试使用Apache Beam SDK 2.6.0使用Google Dataflow和PubSub完成一次交付。用例非常简单:'Generator'数据流作业向PubSub主题发送1M消息。 ...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.