apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

Argo 中使用 PySpark 时出现 KerberosAuthException

我尝试在网上搜索并调试这个问题，不幸的是徒劳无功。我创建了一个简单的 pyspark 应用程序（dockerized），我试图在 Argo 工作流程中运行它。虽然 pyspark

apache-spark kubernetes kerberos argo-workflows argo

回答 1 投票 0

可以增加spark shell输出字符限制吗

在 Spark shell 中运行代码时，直接在 shell 中打印小输出/样本通常比将输出放入文件中更方便。默认情况下，shell 会截断...

apache-spark

回答 2 投票 0

spark-submit 本地模式下的 PySpark 虚拟环境问题

我正在尝试在本地模式下使用spark-submit在python虚拟环境中运行python程序，即使pyspark未安装在虚拟环境中，它仍然可以运行而不会失败。

python-3.x apache-spark pyspark virtualenv spark-submit

回答 1 投票 0

数据流随机失败的 Azure Synapse 管道

我在构建托管在 Azure Synapse 中的数据平台 Spark 数据库的一系列管道方面遇到问题。管道托管启用了“重新创建表”的数据流。数据流...

azure apache-spark azure-synapse azure-synapse-analytics azure-synapse-pipeline

回答 1 投票 0

调整 Spark 作业参数

我拥有约 100 个 CPU 节点，每个节点有 192 个内核和 1.5TB RAM。我正在运行一些大型 Spark 作业（每个作业在 40 个实例上），但我真的不确定调整 Spark 的最佳方法是什么

apache-spark pyspark

回答 1 投票 0

将 AWS 上的 Apache kafka 与 GCP 上的 Spark 连接

我已在 GCP 上设置了一个 Dataproc 集群来运行 Spark 作业，并且 Spark 作业驻留在我已配置的 GCS 存储桶上。另外，我通过设置 MSK 集群在 AWS 上设置了 kafka...

apache-spark apache-kafka

回答 1 投票 0

如何从iPython界面找出pyspark的内存量？

我用命令启动 IPYTHON=1 MASTER=本地[4] pyspark Spark 向我打招呼欢迎使用 Spark，版本 1.2.1 SparkContext 可用作 sc。但是使用sc，我找不到内存...

memory configuration apache-spark pyspark

回答 2 投票 0

(Py) Spark - 在一段时间内按用户分组

我正在处理大量日志文件，我想将作业转移到 Spark，但我不知道如何像在 Pandas 中轻松地那样在基于事件的时间窗口上聚合事件。这就是确切的...

python apache-spark apache-spark-sql pyspark

回答 2 投票 0

对于包含 repartition() 的 Spark 作业，“尚未开始任何任务”

在对 pyspark 作业的“尚未开始任何任务”摸不着头脑一段时间后，问题已被隔离为：作品： ssc = HiveContext(sc) sqlRdd = ssc.sql(someSql) sqlRdd.collect()

apache-spark pyspark

回答 1 投票 0

通过时间旅行在 Apache 冰山表中联合

我正在尝试对两个冰山表应用联合，这两个冰山表是通过 pyspark 中的时间旅行获取的。这是我尝试过的代码： union_query = f""" SELECT * FROM {table_name} FOR

apache-spark pyspark apache-spark-sql apache-iceberg

回答 1 投票 0

SparkSession.catalog 和 SparkSession.sessionState.catalog 有什么区别？

我正在学习Spark，对Spark的目录感到困惑。我在SparkSession中找到了一个catalog，它是CatalogImpl的一个实例，如下 /** * 用户可以通过它创建、删除的接口

apache-spark apache-spark-sql

回答 1 投票 0

带连接的databricks live表可以增量更新吗？

带有连接的 Databricks 实时表（如下面的示例）是否可以增量更新，还是每次都需要完全重新计算，类似于带有连接请求的 Redshift 物化视图...

apache-spark databricks inner-join delta-live-tables

回答 1 投票 0

取消保留 (py)spark 中的所有数据帧

我是一个 Spark 应用程序，有几个点我想保留当前状态。这通常是在一个大步骤之后，或者缓存我想多次使用的状态之后。它看起来...

python caching apache-spark pyspark apache-spark-sql

回答 3 投票 0

找不到数据源：mongo

我正在尝试创建一个本地管道，用于接收从我的 kafka 代理流式传输的消息，并在写入 MongoDB 之前在 Spark 中对其进行处理。我已经安装了所有必要的 JAR 并包含了

mongodb apache-spark pyspark apache-spark-sql

回答 1 投票 0

PySpark 用户定义函数的问题

为什么我的 pyspark 应用程序因用户定义的函数而失败？乘数 = udf(lambda x: float(x) * 100.0, FloatType()) df = df.select(multiplier(df['value']).alias('value_percent'))

python apache-spark pyspark apache-spark-sql

回答 1 投票 0

Pyspark Databricks 优化技术

在我的代码片段下面。 Spark.read.table('schema.table_1').createOrReplaceTempView('d1') # 4亿条记录 Spark.read.table('schema.table_2').createOrReplaceTempView('d1') $3 亿条记录 ...

apache-spark pyspark aws-databricks

回答 1 投票 0

在groupByKey或groupBy之后形成列列表

我有这个输入数据框输入_df： C1 C2 C3 一个 1 12/06/2012 一个 2 13/06/2012 乙 3 12/06/2012 乙 4 17/06/2012 C 5 14/06/2012 转换后，我想得到这种 DataFrame 组...

scala apache-spark group-by

回答 1 投票 0

在 Spark 上的 CreateDataframe 期间提供架构时设置缺失列的默认值

我有一个具有以下格式的数据集：数据= [{“姓名”：“约翰”，“家庭”：“多伊}，{“姓名”：“杰克”}] 以及以下架构：模式=结构...

apache-spark pyspark

回答 1 投票 0

将 Rdd 转换为数据帧

我有一个像这样的RDD：RDD[(Any, Array[(Any, Any)])] 我只想将其转换为 DataFrame。因此我使用这个模式 val schema = StructType(Array (StructField("C1", StringType, true),

scala apache-spark dataframe rdd

回答 1 投票 0

无法从 Spark 容器向 cassandra 容器中的表连接/写入流

我将这些服务组合在同一个融合网络上的单独的 docker 容器中：火花大师：图片：bitnami/spark：最新卷： - ./spark_stream.py:/opt/bitnami/s...

docker apache-spark cassandra

回答 1 投票 0

apache-spark 相关问题

最新问题