google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

我可以恢复在GCP Dataproc中删除的Jupyter笔记本

[您不小心删除了我在DataProc中运行的Jupyter笔记本,但在我的GCS存储桶中看不到检查点文件夹。有任何恢复建议吗?

回答 1 投票 1

将文件名参数传递给Dataproc Hadoop作业

我有一个Hadoop作业,正在尝试在GCP Dataproc群集上运行。作业采用一个参数,即文件名,用于配置作业的某些方面。我似乎找不到办法...

回答 1 投票 0

创建Google Cloud Dataproc群集时出错-无法访问初始化代理脚本

我正在尝试使用以下命令创建我的第一个Google Cloud Dataproc集群:gcloud dataproc集群创建蜂巢群集\ --scopes sql-admin \ --image-version 1.3 \ ...

回答 2 投票 1

gcp dataproc如何在交互式登录和ssh命令之间使用相同的python

对于gcp dataproc群集,如果我ssh运行命令gcloudcompute ssh --internal-ip mycluster-m some_command.sh,我得到的python是/ usr / bin / python但是,当我登录时,我得到了系统conda ...

回答 1 投票 0

Hadoop上的Sqoop:NoSuchMethodError:com.google.common.base.Stopwatch.createStarted()

我正在Google Cloud DataProc的hadoop上运行sqoop,以通过Cloud SQL代理访问postgresql,但是我遇到了Java依赖错误:INFO:第一个Cloud SQL连接,生成RSA密钥对。 ...

回答 1 投票 0

如何在Google Dataproc主节点上启用pyspark HIVE支持

我创建了一个dataproc群集,并手动安装了conda和Jupyter笔记本。然后,我通过conda安装pyspark。我可以从pyspark import SparkSession sc = SparkContext(...]

回答 1 投票 2

如何提交依赖google dataproc集群的pyspark作业

我正在使用google dataproc集群来运行spark作业,该脚本在python中。当只有一个脚本(例如test.py)时,我可以使用以下命令提交作业:gcloud dataproc作业...

回答 1 投票 0

java.lang.UnsatisfiedLinkError:jep.Jep.init(Ljava / lang / ClassLoader; ZZ)on Google cloud dataproc

首先,我不明白为什么人们在这个问题上给分数打分。要么解释我如何改善问题。我可以进一步阐述。这是我的反馈。虽然我是新手,但我...

回答 1 投票 4

Kafka监听器无法正常工作!它在Intranet中是隔离的

我的Kafka节点托管在Google Cloud Dataproc中。但是,我们意识到通过默认初始化脚本安装的Kafka的设置方式仅允许内部网访问。它是...

回答 1 投票 2

如何访问Dataproc群集元数据?

创建集群后,我正在尝试检索其他组件的URL地址(不使用GCP仪表板)。我正在使用de Dataproc python API,更具体地说是...

回答 1 投票 0

带有气流中的DataprocOperator的组件网关

在GCP中,从UI或gcloud命令安装并运行JupyterHub组件非常简单。我正在尝试通过Airflow和DataprocClusterCreateOperator编写进程脚本,这里...

回答 1 投票 0

在Dataproc的群集中查找Hadoop流传输jar

因此,我想在Dataproc集群上运行Python map reduce作业,问题是我找不到需要提交到Main类或jar输入中的Hadoop流jar文件。我正在使用...

回答 1 投票 2

设置Datafusion实例以与受IAP保护的Dataproc集群连接

我们有一个受IAP(身份识别代理)保护的Dataproc集群,我们可以使用以下命令使用单个用户ID成功将SSH SSH到其中:gcloud computing ssh cluster-name --tunnel-through-iap ...

回答 1 投票 2

由于未注册Spark工作者而无法执行作业

[当我尝试在GCP Dataproc集群上执行Spark SQL查询时,我看到一个错误:初始作业未接受任何资源;检查您的群集UI,以确保工作人员已注册并具有...

回答 1 投票 1

Dataproc群集映像升级

由于我们的业务需求,我们必须使用长期运行的静态持久性Dataproc集群。有什么方法可以升级Dataproc映像以利用最新的OS / OSS更新?请帮助...

回答 1 投票 0

更改GCP DataProc群集的调度程序属性

[当我运行使用Dataproc Cluster Web界面的Jupyter Notebook创建的PySpark代码时,我发现正在运行的代码并没有使用主节点或工作节点中的所有资源。它...

回答 1 投票 2

GCP Dataproc集群上的工作流调度

我有一些复杂的Oozie工作流程,可以从本地Hadoop迁移到GCP Dataproc。工作流程包括shell脚本,Python脚本,Spark-Scala作业,Sqoop作业等。我遇到了一些...

回答 1 投票 1

Bigsearch管道的Elasticsearch部署在云数据融合实例上失败

我正在部署一个数据融合管道,该管道将从Elasticsearch的索引中获取数据并将该数据加载到bigQuery表中。管道仅包含与BigQuery的elasticsearch插件连接器...

回答 1 投票 0

Cloud Dataproc无法访问Cloud Storage存储桶

我有一个cloud dataproc Spark作业,该作业也使用Drvier方面的Cloud Strage API(从同一文件夹中选择特定文件以进行处理)。以下是Maven依赖项: ...

回答 1 投票 0

在Google Cloud DataProc上计划cron作业

我目前有一个PySpark作业,该作业已部署在DataProc群集上(1个主节点和4个具有足够核心和内存的工作节点)。此作业运行在数百万条记录上,并执行昂贵的...

回答 2 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.