Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。
将数据集参数添加到列中,以便稍后使用DataPrep在BigQuery中使用它们
我正在通过Google DataPrep从Google云端存储(GCS)导入多个文件,并将结果存储在Google BigQuery的表格中。 GCS上的结构看起来像这样:// source / user / ...
没有外部IP地址可以运行Google Cloud Dataflow吗?
在扩大我们对Google Cloud Dataflow的使用时,我们注意到的一点是,我们将开始在使用中使用IP地址的配额上运行。我们知道申请配额......
Google Cloud Dataflow流媒体管道在大约25天后就会挂起
我们正在运行多个流数据流管道,这些管道总是最终挂起,需要在运行大约25天后重新启动。有没有人看到这个?有没有某种最大时间......
我有一个DataFlow管道尝试构建索引(键值对)并计算一些指标(如每个键的多个值)。输入数据总共约为60 GB,存储在GCS和管道上......
我们正在尝试使用数据流将数据插入bigquery(流式传输)。有没有办法可以检查插入Bigquery的记录数量?我们需要这些数据进行对帐......
Google App Engine无法启动Dataflow作业
这是我失败时打印出来的错误消息。我正在使用Dev Local服务器,并转到http:// localhost:8080 / dataflow / schedule进行doGet()调用以启动Dataflow管道。我也是 ...
使用Google Dataflow在批处理模式下使用KafkaIO
Google Dataflow作业使用Apache Beam的KafkaIO库与AvroIO和Windowed Writes将输出写入Google Cloud Storage存储桶中的“.avro”文件。但是,它默认为Streaming为...
将Apache Beam版本升级到2.11.0失败,并通过apache airflow进行编排
Apache Beam Python SDK升级到2.11.0问题。我正在使用requirements.txt将sdk从2.4.0升级到2.11.0。它具有以下依赖关系:apache_beam == 2.11.0 google-cloud-dataflow == ...
上载数据流模板时RuntimeValueProvider问题
每当我按照以下说明尝试使用add_value_provider_argument执行我的管道模板时:https://cloud.google.com/dataflow/docs/templates/creating-templates,管道会尝试...
我希望能够通过自定义键使用分组,但这是我到目前为止的尝试,我们使用自定义类来处理KV对象的键,因为我们希望GroupBy具有更复杂的条件......
我们有一个拥有用户的应用程序;每个用户使用我们的应用程序,每次使用10-40分钟,我想计算基于...的每个会话骚扰的事件的分布/事件...
我是数据流的新手,我正在寻找构建将使用pubsub作为源的管道。我一直致力于流式传输管道,它作为流引擎和kafka作为源代码,我们可以......
根据Apache Beam Execution Model - 捆绑和持久性:“PCollection中的元素不是同时处理所有元素,而是捆绑处理。...的划分...
我正在使用python处理数据流。我在使用python中的内置类型()推断数据类型时遇到问题。我尝试使用utf-8编码该值并在值上应用type()但它返回str ...
DataFlow中的Pub / Sub自定义时间戳和窗口(Apache Beam)
我想在Apache Beam中使用流管道实现以下场景(并在Google DataFlow上运行):从Pub / Sub读取消息(JSON字符串)反序列化JSON使用自定义字段(...
我正在研究使用KafkaIO从Kafka读取消息的管道,我正在查看commitOffsetsInFinalize()选项和KafkaCheckpointMark类。我想达到至少一次的消息......
如何通过侧输入将两个Pcollections(各种大小/数据)与一个共同的“键”(Street)合并?
我有两个PCollections:一个从Pub / Sub中提取信息,另一个从CSV文件中提取数据。在每个管道中进行了一些不同的转换之后,我想将它们合并在一个公共密钥上,它们都是......
Dataflow使用哪个持久存储来保持Apache Beam Timers的持久状态?
它不是明确的,但我认为Dataflow可以使用永久磁盘资源无论如何我无法找到确认。我想知道我是否能够承担这些局限和预期......
Google Cloud Shell - 如何解决CERTIFICATE_VERIFY_FAILED错误?
我有简单的数据流管道并尝试从云外壳执行,代码:从__future__ import print_function导入apache_beam作为来自apache_beam.options.pipeline_options导入的光束...
我的目标是连接两个表,其中第二个表是正常的,第一个表是嵌套结构表。连接键在第一个表的嵌套结构中可用。在这种情况下, ...