Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。
Dataflow REST API的“ projects.locations.templates.create”和“ projects.locations.templates.launch有什么区别?
我正在尝试基于Cloud Scheduler中的数据流模板启动数据流作业。以下文档提到了用于启动数据流作业的API projects.templates.launch:https://cloud.google.com / ...
写入Elasticsearch时出错,无法从数据流中插入某些元素
elasticsearch版本6.8.5 ElasticsearchIO 2.15.0数据版本2.15.0,我在集群中有3个节点,并且在同一台机器上,我在gcp中具有6个内核和16GB RAM的实例,我已经设置了...
我有一个简单的批处理Apache Beam Pipeline。在本地运行时-DirectRunner可以正常工作,但是使用DataflowRunner时,无法从requirements.txt安装1个依赖项。原因是特定的...
从pubsub-> bigquery移至pubsub-> gcs(avro)-> bigquery
我们当前的数据管道将事件直接“流”送到bigquery。我们在pubsub中有一条消息流,我们首先使用数据流进行读取,充实并写入其他pubsub主题,然后......>
Beam / Dataflow ReadAllFromParquet不读取任何内容,但我的工作仍然成功吗?
我有一个数据流作业,该作业:从GCS读取文本文件中的其他文件名,将文件名传递给ReadAllFromParquet以读取.parquet文件,尽管我的工作'成功',但仍写入BigQuery ...
代码逻辑无法正常工作。我在Google Cloud上的Apache Beam中的逻辑错误
我正在尝试在apache_beam中实现CDC。在这里,我已卸载了主数据和新数据,这些数据预计每天都会发布。该联接无法正常工作。有点不对劲。 ...
自定义数据流模板-BigQuery到CloudStorage-文档?一般解决方案建议?
我正在使用BigQuery表数据源。它是“无限制的”,因为它通过批处理过程进行了更新。它包含来自服务器日志的会话键控报告数据,每行捕获一个请求。我愿意...
此错误是突然发生的。数据流上没有任何更改。我们看到错误“ NameError:未定义全局名称'firestore'[在运行'generatePtransform-12478'时]“看起来像...
我的波束数据流作业在本地成功(使用DirectRunner),并在云上失败(使用DataflowRunner),此代码段中本地化的问题:类SomeDoFn(beam.DoFn):... def process(self,...
[在ParDo中处理数据时,我需要使用存储在Google Cloud Storage上的JSON模式。我认为这可能是负担重的吗?我阅读了他们称为文档的页面(https://beam.apache.org / ...
我的流程将文件存储在磁盘上,我需要设置文件名,以便可以找回东西。默认名称是窗口时间戳和计数器,这对我没有帮助。文档不明确...
从模板运行时参数,Python,Apache Beam,数据流中命名BigQuery表
我正在使用Python Apache Beam Dataflow开发一个项目,我需要从启动数据流模板提供的运行时参数中命名bigquery表。我没有运气,所以...
我正在使用Apache Beam从PubSub读取消息并将其写入BigQuery。我想要做的就是根据输入中的信息写入多个表。减少...
使用Apache Beam在BigTable中使用checkAndMutate(有条件的写入)
我需要使用Apache Beam将记录写入BigTable。但是,如果表中已经存在特定的行键,则不得写入记录。我可以在BigTable中使用条件写入吗?我...
我在将apache-beam作业提交给GCP DataFlow时遇到这个奇怪的问题。有时代码可以正常运行,并且执行成功。但是,偶尔我会得到以下与酸洗有关的...
Google Cloud数据流:如何每个工作人员(单个)仅初始化一次Hikari连接池?
Hibernate Utils与Hikari配置一起创建了会话工厂。当前,我们在ParDo的@Setup方法中进行操作,但是它打开了太多的连接。那有什么好处...
运行Apache Beam DataFlow,我能够成功运行Streaming管道12天(11月5日至17日),然后DataFlow作业停止处理数据。联系AI Platform时看到SSL错误...
无法在Eclipse插件“ Google Cloud Tools for Eclipse”中创建项目]]
所有人都在Eclipse插件“未为Cloud Dataflow启用项目”中遇到此错误。我正在尝试创建一个新的数据流项目,并提供“帐户”和“ Cloud Platform项目ID”,并且...
我尝试在https://cloud.google.com/dataflow/docs/quickstarts/quickstart-java-maven中运行wordcount的google cloud数据流示例代码,并始终出现错误:我们区域中的工作池启动- ...
Google Dataflow Beam Job中的SSL握手异常
虽然使用Okhttp3从Dataflow作业中请求(获取和发布)HTTPS URL,但该程序引发SSL握手异常并失败。确切的消息是“ javax.net.ssl.SSLHandshakeException:已接收到...