Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
读取数据并将数据写回同一个表 [UNSUPPORTED_OVERWRITE.TABLE]
我无法让我的 PySpark 应用程序将更新的 DataFrame 写入持久 Parquet 存储。 我尝试读取和写入存储的表 我遵循了创建的通常步骤...
Spark 2.4.3 - Scala 2.12.3 - 对象 apache 不是包 org 的成员
我最近更新到 Spark 2.4.3 和 Scala 2.12.3(从 Spark 2.0.0),并且在编译非常简单的代码(加载和显示)时遇到问题。 我的 build.sbt 与 sbt 1.2.8 是: 名称 := “我的程序” 版本...
Spark 中的迭代器到迭代器转换如何允许将数据溢出到 Spark 中的磁盘。?
如果在 MapPartiton 中使用迭代器到迭代器转换,那么它将如何允许数据溢出到磁盘。据我了解 MapPartition 需要内存中的整个分区来处理,但如果我使用
我想分析最近通过 OPTIMIZE 命令优化的数据块上的增量表分区的大小。 我想知道我是否只是将每个镶木地板文件的大小加起来
Synapse Analytics sql 与 Spark 池按需同步查询速度非常慢
我已将文件加载到 Azure 存储帐户 gen2 中,并使用 Azure Synapse Analytics 来查询它们。按照此处的文档进行操作:https://learn.microsoft.com/en-us/azure/synapse-analyti...
“pip install pyspark”如何避免设置 SPARK_HOME
从 pypi.org 安装 PySpark 时 pip安装pyspark==3.5.0 似乎没有任何设置 SPARK_HOME 环境变量的要求。 这是如何运作的? 相反,如果我...
在yarn下的spark作业中连接启用Kerberos + SSL的solr
我有 SOLR 6 集群,启用了 Kerberos 和 SSL。 当我使用 CloudSolrClient 的测试客户端连接到它时,它工作正常。但是在 Spark 作业驱动程序中运行相同的代码时,我得到下面的结果......
Spark MariaDB jdbc SQL 查询返回列名称而不是列值
我正在 Databricks 中运行 Apache Spark,从 MariaDB 检索数据。我有包含设备 UUID 的 IoT 文件,我需要检索有关用户的其他信息来进行分析。然而,...
我使用过pandas dataframe,需要对数据进行一些基本的选择/过滤,但是在pyspark dataframe中。我正在将脚本作为 aws 粘合作业运行。我需要转换 pyspark datafr...
使用registerTempTable(spark 2.+的createOrReplaceTempView)注册的表是否被缓存? 使用 Zeppelin,我在 scala 代码中注册一个 DataFrame,经过大量计算,然后在 %py 内...
spark会不会将一个groupby阶段拆分成将每个group逐个加载到内存中以减少内存使用?
我有一个包含 pk 日期和 user_id 的表。 df = ( Spark.read.format(“jdbc”) .选项(“驱动程序”,驱动程序) .选项(“网址”,网址) .option("dbtable", ta...
Pyspark。 Spark.SparkException:作业因阶段失败而中止:阶段 15.0 中的任务 0 失败 1 次,java.net.SocketException:连接重置
我是 pyspark 的新手,我正在尝试使用 pyspark 在 Prophet 中运行多个时间序列(作为分布式计算,因为我有 100 个时间序列需要预测),但我有如下错误。 进口...
我们的产品运行环境现在使用 Apache Spark 3.4 我的开发环境 智能 安装Maven 3.9.9 爪哇23.0.1 POM Spark 版本 3.4.0 POM Scala 版本 2.12.15 POM scala-maven-插件 4.9.2 聚甲醛...
我有一个使用 YARN 在 EKS 集群上运行的 Spark 应用程序 应用程序启动,我可以在 YARN UI 中看到它,但它失败了(参见下面的屏幕截图),因为缺少凭据,默认...
我有Dataframe,我想从DataFrame列中获取第一个值和最后一个值。 +----+-----+--------------------+ |测试|计数| 支持| +----+-----+--------------------+ | 一个| 5| 0.
能否将Spark警告“CSV header does not符合schema”改为故障,通过配置,并停止当前操作?
这个 Spark 警告非常方便,当我们使用新的 csv 文件从 2022 年切换到 2023 年时。 它注意到我们不再匹配了。这个警告向我解释了一些事情并为我节省了数十
从 Spark 中的 parquet 文件读取特定列的有效方法
从具有许多列的 parquet 文件中仅读取 Spark 中列的子集的最有效方法是什么?正在使用spark.read.format("parquet").load().select(...col1, col2...
HIVE_PARTITION_SCHEMA_MISMATCH:表和分区架构之间不匹配
我在 AWS 中实现了一个管道,其中我的数据存储在名为“input-bucket”的存储桶中。在这个存储桶中,有一个包含各种压缩文件的文件。我写了一个 Glue j...
我正在EKS上向YARN提交一个spark应用程序,我将展示我认为的相关配置。 Spark.yarn.stagingDir:文件:///project/fs/apps/spark 当我提交应用程序时,我得到以下信息: ...
在 Spark 结构化流处理期间重命名 Spark UI 中的 jobId
我能够使用 setJobDescription 重命名 SparkUI 中的作业描述,仅购买我的预处理数据被重命名(缓存数据集),但主要作业/阶段未重命名 例如: 我的缓存...