apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

PySpark 未从 Windows 命令提示符启动

我正在尝试从Windows cmd启动pyspark。但到目前为止还没有运气。我收到一条错误消息,如下所示。 我几乎翻遍了 stackoverflow 和网络搜索的每个角落,但还是没能...

回答 2 投票 0

在spark执行中查找两个RDD之间的共同数据

我有RDD1 列 1 列 2 一个x123 通过y123 Cz123 RDD2 第 1 列 一个 C 我想运行两个 RDD 的交集并找到公共元素,即 RDD2 中的项目...的数据是什么?

回答 1 投票 0

Spark Word2Vec 如何合并每个分区的结果?

增加 Spark 的 Word2Vec 的 numPartitions 使其速度更快,但准确性较低,因为它单独适合每个分区,从而在合并结果之前减少了每个单词可用的上下文。 如何

回答 1 投票 0

awsglue python shell 作业与 Spark 作业的最佳用例是什么?

一直在使用awsgluepythonshell作业来构建简单的数据etl作业,对于spark作业,只使用过一两次转换为orc格式或在JDBC数据上执行sparksql。所以想知道...

回答 2 投票 0

Spark:如何高效加载大型S3路径

我有一个广泛的 S3 路径,其结构按 ID、年、月和日进行分区。 S3 路径遵循以下格式:s3a://bucket/results/id=xxxxx/year=xxxx/month=xx/day=xx。以下是代码示例

回答 1 投票 0

将转换应用于新数据 Spark

我正在使用 Spark (core/mlib) 和 Java,版本 2.3.1。 我正在对数据集应用三种转换 - StringIndexer、OneHotEncoderEstimator、VectorAssember - 这是对分类的转换

回答 5 投票 0

SQL 按时间序列检索所有行的前一行值的总和

我的SQL已经生锈了。 我有一个像这样的数据框/表(部分显示,这只是一个示例,而不是真实数据): +--------------------+----------------+---+ | 时间戳|值|编号| +------------...

回答 2 投票 0

Apache Spark 内存分配

我正在使用单节点 Spark 设置将大量 JSON 文件(总大小:11GB)转换为 Parquet 文件。目前,我已经分配了 6GB 给驱动程序,4GB 给执行程序,但我

回答 1 投票 0

PySpark StreamingQueryException:Elasticsearch Spark 连接器的 java.lang.NoSuchMethodError

我正在从事 PySpark 流作业,需要将流数据从 Kafka 写入 Elasticsearch。我正在使用: 火花版本:3.5.2 Elasticsearch Spark 连接器:org.elasticsearch:elasticsea...

回答 1 投票 0

线程“主”java.lang.UnsatisfiedLinkError中出现异常:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z未解决

我查看了类似问题的答案,但没有一个解决了我遇到的问题。一些 hadoop 命令似乎可以工作(例如 hadoop fs -cat),而其他命令则不能(hadoop fs -ls,这会引发......

回答 1 投票 0

如何使用在本机 Python (scikit-learn) 中训练的 XGBoost 模型在 Spark 中执行推理

我发现了一个 xgboost 模型,它是在原生 python 中使用 sklearn 进行训练的。 我如何使用该模型对 pyspark 中的新数据集进行推理。 除了使用 UDF 之外,我还有哪些其他选择...

回答 1 投票 0

Spark SQL 中的 CROSS APPLY 替代方案

我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY,但spark没有CROSS APPLY。我研究了一下,发现INNER JOIN可以用...

回答 1 投票 0

将 Dataproc Serverless 版本从 2.1 升级到 2.2 时出错

我已将 Dataproc Serverless 的版本从 2.1 更改为 2.2,现在当我运行它时,出现以下错误: 线程“main”中的异常 java.util.ServiceConfigurationError: org.ap...

回答 1 投票 0

无法在 kubernetes 上使用 Spark 运算符运行 PySpark 作业

我在本地计算机上安装了一个 minikube 集群,并在其上安装了 Spark-operator。我还为其设置了必要的服务帐户和 RBAC。然而,当我尝试运行我的 Pyspark

回答 1 投票 0

k8s (GKE) 上的 Apache Spark - 复制到 /opt/spark/work-dir 的文件未显示在部署中

我已在 kubernetes (GKE) 上部署了 Apache Spark,并且创建了一个 Docker 映像,并将所需文件复制到位置 -> /opt/spark/work-dir 当我登录 Docker 镜像时,我可以看到...

回答 1 投票 0

动态选择col来获取值

我的数据框具有以下架构 ID、名称、AcctIdName、AcctIdLoc、AcctIdPop、AcctIdTop、AcctIdPin 1, ID名称, 1, 0, 0, 0, 0 2、IdLoc、0、-1、0...

回答 1 投票 0

spark 结构化流 - 使用 availableNow 触发器从 kafka 读取

我尝试使用 Spark Stream API 从 Kafka 读取数据并将结果作为增量表写入 S3。对我来说,在 S3 上放置更少的对象很重要,因此我使用 coalesce(2) 在每个批次中创建两个对象。

回答 1 投票 0

有人可以解释一下 Spark 应用程序是如何在本地模式下执行的吗?

我正在努力将机器集群上的 Spark 框架知识调整为本地模式。 我的问题是: a) SparkContext 连接到集群,然后如果 master="local[*]"...

回答 1 投票 0

在 Spark StandAlone 上使用 Logback 进行日志记录

我们使用 Spark StandAlone 2.3.2 和 logback-core/logback-classic 以及 1.2.3 有非常简单的 Logback 配置文件,它允许我们将数据记录到特定目录,并且在本地我可以

回答 3 投票 0

为什么Spark的explode函数比平面地图函数分割数组慢很多?

我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集,“col1”和“col2”,“col2”最初是一个长整型序列。我想将“col2”分解为多行,以便每一行只有一个...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.