Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
Argo 中使用 PySpark 时出现 KerberosAuthException
我尝试在网上搜索并调试这个问题,不幸的是徒劳无功。 我创建了一个简单的 pyspark 应用程序(dockerized),我试图在 Argo 工作流程中运行它。虽然 pyspark
在 Spark shell 中运行代码时,直接在 shell 中打印小输出/样本通常比将输出放入文件中更方便。 默认情况下,shell 会截断...
spark-submit 本地模式下的 PySpark 虚拟环境问题
我正在尝试在本地模式下使用spark-submit在python虚拟环境中运行python程序,即使pyspark未安装在虚拟环境中,它仍然可以运行而不会失败。
我在构建托管在 Azure Synapse 中的数据平台 Spark 数据库的一系列管道方面遇到问题。 管道托管启用了“重新创建表”的数据流。数据流...
我拥有约 100 个 CPU 节点,每个节点有 192 个内核和 1.5TB RAM。 我正在运行一些大型 Spark 作业(每个作业在 40 个实例上),但我真的不确定调整 Spark 的最佳方法是什么
将 AWS 上的 Apache kafka 与 GCP 上的 Spark 连接
我已在 GCP 上设置了一个 Dataproc 集群来运行 Spark 作业,并且 Spark 作业驻留在我已配置的 GCS 存储桶上。另外,我通过设置 MSK 集群在 AWS 上设置了 kafka...
我用命令启动 IPYTHON=1 MASTER=本地[4] pyspark Spark 向我打招呼 欢迎使用 Spark,版本 1.2.1 SparkContext 可用作 sc。 但是使用sc,我找不到内存...
我正在处理大量日志文件,我想将作业转移到 Spark,但我不知道如何像在 Pandas 中轻松地那样在基于事件的时间窗口上聚合事件。 这就是确切的...
对于包含 repartition() 的 Spark 作业,“尚未开始任何任务”
在对 pyspark 作业的“尚未开始任何任务”摸不着头脑一段时间后,问题已被隔离为: 作品: ssc = HiveContext(sc) sqlRdd = ssc.sql(someSql) sqlRdd.collect()
我正在尝试对两个冰山表应用联合,这两个冰山表是通过 pyspark 中的时间旅行获取的。 这是我尝试过的代码: union_query = f""" SELECT * FROM {table_name} FOR
SparkSession.catalog 和 SparkSession.sessionState.catalog 有什么区别?
我正在学习Spark,对Spark的目录感到困惑。 我在SparkSession中找到了一个catalog,它是CatalogImpl的一个实例,如下 /** * 用户可以通过它创建、删除的接口
带有连接的 Databricks 实时表(如下面的示例)是否可以增量更新,还是每次都需要完全重新计算,类似于带有连接请求的 Redshift 物化视图...
我是一个 Spark 应用程序,有几个点我想保留当前状态。这通常是在一个大步骤之后,或者缓存我想多次使用的状态之后。它看起来...
我正在尝试创建一个本地管道,用于接收从我的 kafka 代理流式传输的消息,并在写入 MongoDB 之前在 Spark 中对其进行处理。我已经安装了所有必要的 JAR 并包含了
为什么我的 pyspark 应用程序因用户定义的函数而失败? 乘数 = udf(lambda x: float(x) * 100.0, FloatType()) df = df.select(multiplier(df['value']).alias('value_percent'))
在我的代码片段下面。 Spark.read.table('schema.table_1').createOrReplaceTempView('d1') # 4亿条记录 Spark.read.table('schema.table_2').createOrReplaceTempView('d1') $3 亿条记录 ...
我有这个输入数据框 输入_df: C1 C2 C3 一个 1 12/06/2012 一个 2 13/06/2012 乙 3 12/06/2012 乙 4 17/06/2012 C 5 14/06/2012 转换后,我想得到这种 DataFrame 组...
在 Spark 上的 CreateDataframe 期间提供架构时设置缺失列的默认值
我有一个具有以下格式的数据集: 数据= [{“姓名”:“约翰”,“家庭”:“多伊},{“姓名”:“杰克”}] 以及以下架构: 模式=结构...
我有一个像这样的RDD:RDD[(Any, Array[(Any, Any)])] 我只想将其转换为 DataFrame。因此我使用这个模式 val schema = StructType(Array (StructField("C1", StringType, true),
无法从 Spark 容器向 cassandra 容器中的表连接/写入流
我将这些服务组合在同一个融合网络上的单独的 docker 容器中: 火花大师: 图片:bitnami/spark:最新 卷: - ./spark_stream.py:/opt/bitnami/s...