google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

数据流作业没有任何输出

我有一个问题,其中数据流作业实际上运行良好,但是在手动将其排干之前它不会产生任何输出。使用以下代码,我假设它将产生窗口...

回答 1 投票 0

AttributeError:'function'对象没有属性'tableId'。 Apache Beam数据流运行器

[我正在尝试从Apache Beam PTransform WriteToBigQuery()写入bigquery,当我为该表提供一个lambda函数时,该函数会读取字段“ DEVICE”的值,但会出现错误。我做了...

回答 2 投票 0

Google数据流警告`到InMemory的Rpc已完成,错误已终止:由于陈旧而退出了]

我们的谷歌云数据流作业抛出以下警告:Rpc到InMemory已完成,错误已终止:由于陈旧而被驱逐Rpc到job-vqmu-harness-9lss:12345并已完成,错误...

回答 1 投票 0

没有这样的容器(使用worker_harness_container_image)

我正在尝试使用标志--experiment = beam_fn_api --worker_harness_container_image = gcr.io / ...在Google Cloud Dataflow(Job-ID:2020-06-08_23_39_43-14062032727466654144)上运行Apache Beam Job

回答 1 投票 0

Apache光束列表到PCollection

我的输入是json列表,我想拥有多个元素PCollection。这是我的代码:def parse_json(data):在json.loads(data)中为i导入json:返回i data =(p |“ ...

回答 1 投票 0

BigqueryIO文件加载:仅在需要时使用其他分片

我有一个数据流作业,它从pubsub读取,将PubsubMessage转换为TableRow,然后使用FILE_LOAD方法(每10分钟,1个分片)将该行写入BQ。作业有时会抛出...

回答 1 投票 0


按大小(字节数)或计数的波束窗口

我需要一种方法来触发窗口,基于计数达到指定的限制或窗口中的数据达到指定的大小(字节数)。我确实发现了基于计数的数据驱动触发器,但不是基于数字...

回答 1 投票 0

BigQueryIO.writeTableRows写入BigQuery的延迟非常长

以下代码段显示了BigQuery的写入方法(它从PubSub拾取数据)。 “写入BigQuery”数据流步骤接收TableRow数据,但是它使用非常...

回答 1 投票 0

来自Stackdriver收费的数据流日志

数据流已经与stackdriver集成在一起,但是就数据流而言,它是否需要花费dataflow_steps stackdriver日志。] >>

回答 1 投票 -1

如何处理Apache Beam Pipeline中的大型内存数据以在Google Dataflow Runner上运行

我有一个简单的以下代码。内存中变量word_to_id的大小约为50MB。这会导致在将管道提交到Dataflow Runner时出错。 413请求实体太大word_to_id ...

回答 1 投票 0

Apache Beam当天的窗口

我想在一天的时间范围内使用Windows功能在apache Beam上提取数据。我使用python并使用FixedWindow捕获数据。而且我有关于数据一致性的问题...

回答 1 投票 0


Google DataflowRunner“发生了JNI错误,请检查您的安装,然后重试”-Gradle Beam项目

我有Gradle Apache Beam Java项目,该项目从pubsub中读取事件并写入Cloud Firestore。我可以使用DirectRunner运行此流作业。在DataflowRunner上执行时,工作程序...

回答 1 投票 1


Apache光束从GCS进行数据流作业时读取Avro文件

运行Java作业以读取Avro文件,并且出现错误。在这方面寻求帮助-这是代码-//获取Avro架构字符串schemaJson = getSchema(options.getAvroSchema());模式...

回答 1 投票 0

[寻找c#(nuget)的数据流客户端的用法示例-按模板运行作业

我有一个工作代码,可以通过http请求通过dataflow-template将数据加载到bigtable。我想将其更改为与c#的nuget客户端库一起使用,但是我可以找到任何示例,引用为...] >

回答 1 投票 1


[当我添加requirements.txt [Python]时数据流失败

因此,当我尝试使用DataflowRunner运行数据流并包含require.txt时,如下所示:google-cloud-storage == 1.28.1 pandas == 1.0.3 smart-open == 2.0.0每次失败在此...

回答 1 投票 1

在Google的从Pub / Sub到BigQuery模板的数据流中处理大容量消息的正确方法

如标题所示,我们正在使用数据流使用标准模板将消息从PubSub发送到BigQuery。数据流的错误如下所示:超出了允许的最大行大小。允许:...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.