google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

BQ切换到TIMESTAMP分区表

我试图IngestionTime(_PARTITIONTIME)迁移到BQ TIMESTAMP分区表。为此,我还需要添加一些必要的列。然而,当我翻转开关和重定向...

回答 1 投票 0

使用波束读取记录时重列?

我想利用现有的谷歌示例代码(PubSubToBigQuery.java)解析为Stackdriver日志信息,并将其推至BigQuery。问题是SD日志字段的名称是“@Type”这不是一个...

回答 1 投票 0

如何并行阿帕奇束(数据流)管线的DAG

我使用Apache的光束2.5.0 SDK蟒附加代码片段,在管道中,我采取的I / P从发布 - 订阅话题解析它,并希望在其上执行一些操作,当我跑了......

回答 1 投票 0

数据流上运行的Apache梁Python的古怪酸洗错误

我们正在运行一个非常简单的工作,这读取JSON,做了一些处理,并输出JSON。出于某种原因,这总是失败,一个很奇怪的“酸洗”错误:PicklingError:不能泡菜

回答 1 投票 0

使用DataFlowRunner当光束/数据流意外错误ProtocolMessageEnum未实现

当运行我的梁管道本地所有的工作如预期,但试图在DataflowRunner运行它时,我突然得到下面的错误。老实说,我甚至不知道从哪里开始评估这个...

回答 1 投票 0

如何启动与Python代码数据流工作

我想揭开序幕数据流工作,一旦我在云中删除一个文件storage.And我开始了云功能来触发它。但是我不知道如何启动与Python?有人可以帮助datadlow工作? ...

回答 1 投票 0

在批处理管道我怎么分配时间戳将数据从一个梁管道批来源例如CSV文件

我从一个有界源,CSV文件,批处理管道读取数据,并希望指定一个时间戳基于存储在CSV文件中列数据的元素。如何做到这一点的?

回答 1 投票 1

无法通过使用数据流REST API作业参数

我试图调用通过REST API的数据流模板,然而,当在体内被指定的参数,一个INVALID_ARGUMENT引发错误。在除去参数字段,它的工作原理...

回答 1 投票 0

如何将Pre Prem Hadoop迁移到GCP

我正在尝试将我们组织的hadoop作业迁移到GCP ......我对GCP数据流和数据处理之间感到困惑...我想重新使用我们已经创建的Hadoop作业,并尽量减少对...的管理

回答 2 投票 0

使用PYTHON运行Google数据流模板

我想使用PYTHON执行Google数据流模板。实际上,我一直在使用Dataflow REST API或云功能集成执行数据流模板。这是我的数据流......

回答 1 投票 1

在Apache Beam SQL中无法将RexCall强制转换为RexInputRef异常

我正在尝试使用Beam SQL进行简单的连接,但是我在编译时遇到异常:线程“main”中的异常java.lang.ClassCastException:org.apache.beam.repackaged ....

回答 1 投票 0

如何获取作业ID或气流DataFlowJavaOperator()的结果?

我在气流中使用DataFlowJavaOperator()(Cloud Composer)。有没有办法在下一个PythonOperator任务中获取已执行数据流作业的ID?我想使用job_id来调用gcloud命令...

回答 1 投票 0

工作人员启动后数据流作业没有运行?

有时,即使在工作人员成功启动后,GCP数据流作业也无法在提交后启动。

回答 1 投票 0

使用apache beam python sdk可以进行有状态处理吗?

我一直在使用Apache Beam文章跟踪Timely(和Stateful)处理,虽然全面而且编写得很好但没有指定如何用python实现相同的功能。进一步来说 ...

回答 2 投票 1

从Cloud Dataflow代码调用存储过程

是否可以从Cloud Dataflow代码直接调用“存储过程”。我已经将一些数据转储到Bigquery表中,并且在那些数据上我想应用一个存储过程(在......时使用)

回答 1 投票 3

Google Cloud Dataflow - 将JSON流式传输到PubSub - DirectRunner和DataflowRunner之间的差异

尝试做一些概念上简单的事情,但是我的头靠在墙上。我试图在Python中创建一个流数据流作业,它消耗来自PubSub主题/订阅的JSON消息,...

回答 1 投票 1

数据流管道设计用于实时聚合分析

我有一个案例如下:1)使用pubsub作为数据流的输入并将流数据加载到bigquery 2)从bigquery中选择聚合结果并加载到pubsub作为输出3)监听pubsub的客户端...

回答 2 投票 -1

将带有dict属性的JSON写入Google Cloud Datastore

使用Apache Beam(Python 2.7 SDK)我试图将JSON文件作为实体写入Google Cloud Datastore。示例JSON:{“CustId”:“005056B81111”,“名称”:“John Smith”,“电话”:“827188111”,“......

回答 1 投票 3

apache Beam中普通JDBC和JDBCIO连接器的区别?

作为Apache Beam编程模型的初学者,我想知道JDBC和jdbcio之间的区别。我开发了一个简单的数据流,涉及正常的JDBC连接......

回答 1 投票 1

如何将大数据从GCS复制到S3?

如何将几TB的数据从GCS复制到S3? GCS中有一个很好的“传输”功能,允许将数据从S3导入GCS。但是如何进行导出,另一种方式(除了移动数据...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.