google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce，Spark，Pig和Hive服务。该服务提供GUI，CLI和HTTP API访问模式，用于部署/管理集群以及将作业提交到集群。

我希望在我的dataproc群集的每个节点上设置一个环境变量，以便该变量可用于将在该群集上运行的pyspark作业。做这个的最好方式是什么？我是...

google-cloud-dataproc

回答 2 投票 1

Scala Spark Bigquery Connector问题-InternalException：grpc.StatusRuntimeException

我在本地运行Spark Scala代码时遇到以下错误：线程“ main”中的异常com.google.cloud.spark.bigquery.repackaged.com.google.api.gax.rpc.InternalException：com.google.cloud .spark ....

scala apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 1

在GCP DataProc上配置Spark执行器

我无法配置yarn和spark以利用我在GCP上的Dataproc Spark集群上的所有资源。我正在运行一个1个主节点（4个核心）和2个工作人员（16个核心）的集群，我希望获得火花...

apache-spark yarn google-cloud-dataproc

回答 1 投票 1

我如何将计算机添加到GCP AI平台？

根据该问题的建议，我一直在运行一个使用Tensorflow进行运行的Python应用程序，并使用AI平台将结果输出到csv文件。我一直在使用Jupyter。 ...

python apache-spark google-cloud-platform google-cloud-dataproc gcp-ai-platform-notebook

回答 1 投票 1

从模板创建dataproc集群

如何从现有群集的模板（即yaml文件）创建dataproc群集时如何更改群集映像版本？在这里，我现有的集群具有较旧版本的dataproc映像...

cluster-computing gcloud google-cloud-dataproc

回答 1 投票 1

无法在Google Cloud Platform上创建Dataproc群集，“ NodeInitializationAction必须指定可执行文件”

在Google Cloud Platform上创建Dataproc Cluster时遇到以下错误。我们正在将Mercury插件用于Airflow。只是想了解是什么问题。我尝试了很多选择，但直到现在...

google-cloud-platform google-cloud-dataproc airflow-scheduler

回答 1 投票 2

Dataproc覆盖执行程序的内存

我们以前在Hadoop集群上运行带有以下参数的Spark作业：{'conn_id'：'spark_default'，'num_executors'：10，'executor_cores'：4，4，'executor_memory'：'15G'，'。。

google-cloud-platform airflow google-cloud-dataproc

回答 1 投票 1

Dataproc上的增量Sqoop给出“ util.AppendUtils：无法将文件追加到目标目录；没有这样的目录”

我可以通过hadoop / google dataproc上的sqoop作业运行Postgresql表的完整导出，以导出到google存储桶。但是，当我尝试增量导出时，它会失败。 gcloud dataproc作业...

hadoop sqoop google-cloud-dataproc

回答 1 投票 3

使用PySpark的ETL雪花作业在本地而不在Dataproc上工作

我创建了一个火花作业，并且首先在本地对其进行了测试，并且可以完美地工作。但是，将spark作业传递给Dataproc之后，它将返回以下错误：py4j.protocol.Py4JJavaError：...

python apache-spark pyspark snowflake-data-warehouse google-cloud-dataproc

回答 1 投票 1

如何在GCP中以集群模式运行Spark作业？

在GCP中，我们要在dataproc群集上以群集模式运行spark作业。当前，我们正在使用以下命令gcloud dataproc作业提交spark --cluster xxxx-xxxx-dataproc-cluster01 --...

apache-spark google-cloud-platform google-cloud-dataproc

回答 1 投票 0

Google Spark-BigQuery-Connector如何利用BigQuery Storage API？

根据https://cloud.google.com/dataproc/docs/concepts/connectors/bigquery，连接器使用BigQuery Storage API来使用gRPC读取数据。但是，我在...

apache-spark apache-spark-sql google-bigquery google-cloud-dataproc

回答 1 投票 1

GCP比Mac OS花费更多的时间

这是我的代码的一部分：def get_symbol_wise_csv（df，original_file_path）：symbol = df.write.mode（“ append”）。partitionBy（“ SMBL”）。csv（'％s /'％（BUCKET_PATH））in Mac for 2个文件夹，占用少于10个...

google-cloud-platform pyspark google-cloud-dataproc pyspark-dataframes

回答 1 投票 -1

组件网关通过terraform实现dataproc集群的问题

我通过Terraform在gcp上启动了一个dataproc集群，但是我注意到组件网关仍然显示为禁用，尽管我有自己的脚本来启用它。 software_config {可选组件...

google-cloud-endpoints google-cloud-dataproc api-gateway terraform-provider-gcp

回答 1 投票 0

Dataproc：HDFS上的热数据，Cloud Storage上的冷数据？

[我正在为专业数据工程师学习，我想知道关于Dataproc上的热门数据的“ Google推荐的最佳做法”是什么（假设无需考虑成本）？如果需要考虑成本，那么我...

google-cloud-dataproc

回答 1 投票 1

我如何将未编译的Spark Scala / spark-shell代码作为Dataproc作业运行？

通常，如果我将Scala用于Spark作业，我将编译一个jarfile并与gcloud一起提交，dataproc作业会提交spark，但是有时对于非常轻量的作业，我可能会使用未编译的Scala代码...

scala apache-spark google-cloud-dataproc

回答 1 投票 0

我如何配置spark-submit（或DataProc）从GitHub包中下载Maven依赖项（jar）？

我正在尝试通过GCP DataProc提交spark-submit，以从GitHub软件包存储库下载maven依赖项。添加spark.jars.repositories = https：// myuser：[email protected]/myorg / ...

apache-spark github ivy google-cloud-dataproc spark-submit

回答 1 投票 1

带有PySpark覆盖项目ID的BigQuery

我正在Google Cloud中使用BigQuery和Dataproc。两者都在同一个项目中，我们称之为“ project-123”。我使用Composer（Airflow）运行我的代码。我有一个简单的python脚本，test_script.py，...

python pyspark google-bigquery google-cloud-dataproc google-cloud-composer

回答 1 投票 1

如何在GCP中将jar依赖项添加到dataproc集群？

尤其是如何添加spark-bigquery-connector，以便可以从dataproc的Jupyter Web界面中查询数据？关键链接：-https：//github.com/GoogleCloudPlatform/spark-bigquery -...

maven google-cloud-platform pyspark google-cloud-dataproc

回答 1 投票 2

如何使用AWS数据管道为Spark应用程序正确设置Google云存储

我正在设置集群步骤，以使用Amazon Data Pipeline运行Spark应用程序。我的工作是从S3读取数据，处理数据并将数据写入Google云存储。对于Google Cloud ...

apache-spark google-cloud-storage google-cloud-dataproc amazon-data-pipeline spark-submit

回答 1 投票 3

如何将Google Dataproc查询的结果存储在变量GCP中

我有一个需求，我需要计算gcloud配置单元表中的记录数，并且需要将此结果存储在变量中。下面是相同的代码：test = $（gcloud dataproc jobs ...

google-cloud-platform google-cloud-dataproc

回答 1 投票 2

google-cloud-dataproc 相关问题

最新问题