apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Argo 中使用 PySpark 时出现 KerberosAuthException

我尝试在网上搜索并调试这个问题,不幸的是徒劳无功。 我创建了一个简单的 pyspark 应用程序(dockerized),我试图在 Argo 工作流程中运行它。虽然 pyspark

回答 1 投票 0

可以增加spark shell输出字符限制吗

在 Spark shell 中运行代码时,直接在 shell 中打印小输出/样本通常比将输出放入文件中更方便。 默认情况下,shell 会截断...

回答 2 投票 0

spark-submit 本地模式下的 PySpark 虚拟环境问题

我正在尝试在本地模式下使用spark-submit在python虚拟环境中运行python程序,即使pyspark未安装在虚拟环境中,它仍然可以运行而不会失败。

回答 1 投票 0

数据流随机失败的 Azure Synapse 管道

我在构建托管在 Azure Synapse 中的数据平台 Spark 数据库的一系列管道方面遇到问题。 管道托管启用了“重新创建表”的数据流。数据流...

回答 1 投票 0

调整 Spark 作业参数

我拥有约 100 个 CPU 节点,每个节点有 192 个内核和 1.5TB RAM。 我正在运行一些大型 Spark 作业(每个作业在 40 个实例上),但我真的不确定调整 Spark 的最佳方法是什么

回答 1 投票 0

将 AWS 上的 Apache kafka 与 GCP 上的 Spark 连接

我已在 GCP 上设置了一个 Dataproc 集群来运行 Spark 作业,并且 Spark 作业驻留在我已配置的 GCS 存储桶上。另外,我通过设置 MSK 集群在 AWS 上设置了 kafka...

回答 1 投票 0

如何从iPython界面找出pyspark的内存量?

我用命令启动 IPYTHON=1 MASTER=本地[4] pyspark Spark 向我打招呼 欢迎使用 Spark,版本 1.2.1 SparkContext 可用作 sc。 但是使用sc,我找不到内存...

回答 2 投票 0

(Py) Spark - 在一段时间内按用户分组

我正在处理大量日志文件,我想将作业转移到 Spark,但我不知道如何像在 Pandas 中轻松地那样在基于事件的时间窗口上聚合事件。 这就是确切的...

回答 2 投票 0

对于包含 repartition() 的 Spark 作业,“尚未开始任何任务”

在对 pyspark 作业的“尚未开始任何任务”摸不着头脑一段时间后,问题已被隔离为: 作品: ssc = HiveContext(sc) sqlRdd = ssc.sql(someSql) sqlRdd.collect()

回答 1 投票 0

通过时间旅行在 Apache 冰山表中联合

我正在尝试对两个冰山表应用联合,这两个冰山表是通过 pyspark 中的时间旅行获取的。 这是我尝试过的代码: union_query = f""" SELECT * FROM {table_name} FOR

回答 1 投票 0

SparkSession.catalog 和 SparkSession.sessionState.catalog 有什么区别?

我正在学习Spark,对Spark的目录感到困惑。 我在SparkSession中找到了一个catalog,它是CatalogImpl的一个实例,如下 /** * 用户可以通过它创建、删除的接口

回答 1 投票 0

带连接的databricks live表可以增量更新吗?

带有连接的 Databricks 实时表(如下面的示例)是否可以增量更新,还是每次都需要完全重新计算,类似于带有连接请求的 Redshift 物化视图...

回答 1 投票 0

取消保留 (py)spark 中的所有数据帧

我是一个 Spark 应用程序,有几个点我想保留当前状态。这通常是在一个大步骤之后,或者缓存我想多次使用的状态之后。它看起来...

回答 3 投票 0

找不到数据源:mongo

我正在尝试创建一个本地管道,用于接收从我的 kafka 代理流式传输的消息,并在写入 MongoDB 之前在 Spark 中对其进行处理。我已经安装了所有必要的 JAR 并包含了

回答 1 投票 0

PySpark 用户定义函数的问题

为什么我的 pyspark 应用程序因用户定义的函数而失败? 乘数 = udf(lambda x: float(x) * 100.0, FloatType()) df = df.select(multiplier(df['value']).alias('value_percent'))

回答 1 投票 0

Pyspark Databricks 优化技术

在我的代码片段下面。 Spark.read.table('schema.table_1').createOrReplaceTempView('d1') # 4亿条记录 Spark.read.table('schema.table_2').createOrReplaceTempView('d1') $3 亿条记录 ...

回答 1 投票 0

在groupByKey或groupBy之后形成列列表

我有这个输入数据框 输入_df: C1 C2 C3 一个 1 12/06/2012 一个 2 13/06/2012 乙 3 12/06/2012 乙 4 17/06/2012 C 5 14/06/2012 转换后,我想得到这种 DataFrame 组...

回答 1 投票 0

在 Spark 上的 CreateDataframe 期间提供架构时设置缺失列的默认值

我有一个具有以下格式的数据集: 数据= [{“姓名”:“约翰”,“家庭”:“多伊},{“姓名”:“杰克”}] 以及以下架构: 模式=结构...

回答 1 投票 0

将 Rdd 转换为数据帧

我有一个像这样的RDD:RDD[(Any, Array[(Any, Any)])] 我只想将其转换为 DataFrame。因此我使用这个模式 val schema = StructType(Array (StructField("C1", StringType, true),

回答 1 投票 0

无法从 Spark 容器向 cassandra 容器中的表连接/写入流

我将这些服务组合在同一个融合网络上的单独的 docker 容器中: 火花大师: 图片:bitnami/spark:最新 卷: - ./spark_stream.py:/opt/bitnami/s...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.