apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

PySpark 未从 Windows 命令提示符启动

我正在尝试从Windows cmd启动pyspark。但到目前为止还没有运气。我收到一条错误消息，如下所示。我几乎翻遍了 stackoverflow 和网络搜索的每个角落，但还是没能...

apache-spark pyspark

回答 2 投票 0

在spark执行中查找两个RDD之间的共同数据

我有RDD1 列 1 列 2 一个x123 通过y123 Cz123 RDD2 第 1 列一个 C 我想运行两个 RDD 的交集并找到公共元素，即 RDD2 中的项目...的数据是什么？

dataframe apache-spark rdd

回答 1 投票 0

Spark Word2Vec 如何合并每个分区的结果？

增加 Spark 的 Word2Vec 的 numPartitions 使其速度更快，但准确性较低，因为它单独适合每个分区，从而在合并结果之前减少了每个单词可用的上下文。如何

scala apache-spark word2vec apache-spark-ml

回答 1 投票 0

awsglue python shell 作业与 Spark 作业的最佳用例是什么？

一直在使用awsgluepythonshell作业来构建简单的数据etl作业，对于spark作业，只使用过一两次转换为orc格式或在JDBC数据上执行sparksql。所以想知道...

amazon-web-services apache-spark aws-glue

回答 2 投票 0

Spark：如何高效加载大型S3路径

我有一个广泛的 S3 路径，其结构按 ID、年、月和日进行分区。 S3 路径遵循以下格式：s3a://bucket/results/id=xxxxx/year=xxxx/month=xx/day=xx。以下是代码示例

amazon-web-services scala apache-spark amazon-s3 apache-spark-sql

回答 1 投票 0

将转换应用于新数据 Spark

我正在使用 Spark (core/mlib) 和 Java，版本 2.3.1。我正在对数据集应用三种转换 - StringIndexer、OneHotEncoderEstimator、VectorAssember - 这是对分类的转换

apache-spark apache-spark-mllib

回答 5 投票 0

SQL 按时间序列检索所有行的前一行值的总和

我的SQL已经生锈了。我有一个像这样的数据框/表（部分显示，这只是一个示例，而不是真实数据）： +--------------------+----------------+---+ | 时间戳|值|编号| +------------...

sql dataframe apache-spark pyspark time-series

回答 2 投票 0

Apache Spark 内存分配

我正在使用单节点 Spark 设置将大量 JSON 文件（总大小：11GB）转换为 Parquet 文件。目前，我已经分配了 6GB 给驱动程序，4GB 给执行程序，但我

java apache-spark out-of-memory parquet

回答 1 投票 0

PySpark StreamingQueryException：Elasticsearch Spark 连接器的 java.lang.NoSuchMethodError

我正在从事 PySpark 流作业，需要将流数据从 Kafka 写入 Elasticsearch。我正在使用：火花版本：3.5.2 Elasticsearch Spark 连接器：org.elasticsearch:elasticsea...

scala apache-spark elasticsearch pyspark spark-streaming

回答 1 投票 0

线程“主”java.lang.UnsatisfiedLinkError中出现异常：org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z未解决

我查看了类似问题的答案，但没有一个解决了我遇到的问题。一些 hadoop 命令似乎可以工作（例如 hadoop fs -cat），而其他命令则不能（hadoop fs -ls，这会引发......

java windows apache-spark hadoop

回答 1 投票 0

如何使用在本机 Python (scikit-learn) 中训练的 XGBoost 模型在 Spark 中执行推理

我发现了一个 xgboost 模型，它是在原生 python 中使用 sklearn 进行训练的。我如何使用该模型对 pyspark 中的新数据集进行推理。除了使用 UDF 之外，我还有哪些其他选择...

apache-spark pyspark xgboost apache-spark-mllib apache-spark-ml

回答 1 投票 0

Spark SQL 中的 CROSS APPLY 替代方案

我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY，但spark没有CROSS APPLY。我研究了一下，发现INNER JOIN可以用...

sql sql-server apache-spark apache-spark-sql bigdata

回答 1 投票 0

将 Dataproc Serverless 版本从 2.1 升级到 2.2 时出错

我已将 Dataproc Serverless 的版本从 2.1 更改为 2.2，现在当我运行它时，出现以下错误：线程“main”中的异常 java.util.ServiceConfigurationError: org.ap...

apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

无法在 kubernetes 上使用 Spark 运算符运行 PySpark 作业

我在本地计算机上安装了一个 minikube 集群，并在其上安装了 Spark-operator。我还为其设置了必要的服务帐户和 RBAC。然而，当我尝试运行我的 Pyspark

apache-spark kubernetes pyspark spark-operator

回答 1 投票 0

k8s (GKE) 上的 Apache Spark - 复制到 /opt/spark/work-dir 的文件未显示在部署中

我已在 kubernetes (GKE) 上部署了 Apache Spark，并且创建了一个 Docker 映像，并将所需文件复制到位置 -> /opt/spark/work-dir 当我登录 Docker 镜像时，我可以看到...

apache-spark kubernetes pyspark google-kubernetes-engine

回答 1 投票 0

动态选择col来获取值

我的数据框具有以下架构 ID、名称、AcctIdName、AcctIdLoc、AcctIdPop、AcctIdTop、AcctIdPin 1, ID名称, 1, 0, 0, 0, 0 2、IdLoc、0、-1、0...

scala apache-spark

回答 1 投票 0

spark 结构化流 - 使用 availableNow 触发器从 kafka 读取

我尝试使用 Spark Stream API 从 Kafka 读取数据并将结果作为增量表写入 S3。对我来说，在 S3 上放置更少的对象很重要，因此我使用 coalesce(2) 在每个批次中创建两个对象。

apache-spark apache-kafka spark-streaming spark-structured-streaming delta-lake

回答 1 投票 0

有人可以解释一下 Spark 应用程序是如何在本地模式下执行的吗？

我正在努力将机器集群上的 Spark 框架知识调整为本地模式。我的问题是： a) SparkContext 连接到集群，然后如果 master="local[*]"...

apache-spark pyspark parallel-processing distributed

回答 1 投票 0

在 Spark StandAlone 上使用 Logback 进行日志记录

我们使用 Spark StandAlone 2.3.2 和 logback-core/logback-classic 以及 1.2.3 有非常简单的 Logback 配置文件，它允许我们将数据记录到特定目录，并且在本地我可以

java scala apache-spark logback apache-spark-standalone

回答 3 投票 0

为什么Spark的explode函数比平面地图函数分割数组慢很多？

我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集，“col1”和“col2”，“col2”最初是一个长整型序列。我想将“col2”分解为多行，以便每一行只有一个...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

apache-spark 相关问题

最新问题