apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Spark DataFrame 中由于在特定分区上过滤时过滤器表达式过多而出现 StackOverflowError

我正在开发一个 Spark (Scala) 应用程序,我需要过滤掉特定分区(嵌套):region_name/audit_submission_date_hr_min。 Region_name 是顶级分区。

回答 1 投票 0

在集群中的执行器上运行 python 脚本 [Scala/Spark]

我有python脚本: 导入系统 对于 sys.stdin 中的行: 打印(“你好”+行) 我在集群中的工作人员上运行它: def run(spark: SparkSession) = { val data = List("约翰"...

回答 1 投票 0

使用 JDBC 驱动程序从 Apache Ignite 读取会出现 SQLException:获取大小必须大于零

我正在尝试使用 PySpark 从 Apache Ignite 表中读取一些数据。 Spark.read.format("jdbc").option("driver", "org.apache.ignite.IgniteJdbcThinDriver")\ .选项(&q...

回答 1 投票 0

PIVOT 如何将 Dataframe api 转换为 Spark SQL

在将 dataframe api 转换为 Spark SQL 时,我得到了不同的输出。指出我错过了 sql 逻辑的地方。 我有一个名为演示的表,有两列值和标记。值列是 seq

回答 1 投票 0

如何从 pyspark sql 上的大表中选择除其中 2 列之外的所有列?

在连接两个表时,我想从 databricks 上的 pyspark sql 上有许多列的大表中选择除其中 2 之外的所有列。 我的 pyspark sql: %sql 设置 hive.support.quoted.identifi...

回答 4 投票 0

如何将 Spark 配置添加到 DatabricksSession

我曾经使用自定义 Spark 对象定义如下: 从 pyspark.sql 导入 SparkSession Spark_builder = SparkSession.builder.appName(settings.project_name) 配置 = {**self.DEFAULT_CONFI...

回答 1 投票 0

如何在 PySpark 中使用正则表达式从 UDF 中获取最后一个特定字符?

我正在尝试使用正则表达式(regex)从 PySpark DataFrame 中提取最后一个字符,以便执行一些数据清理和解析为列。 目前,我正在使用 UDF (U...

回答 1 投票 0

Hive 表是从 Spark 创建的,但在 hive 中不可见

来自 Spark 使用: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存,我可以使用下面命令的 hadoop fs -ls /apps/hive/warehouse est 看到......

回答 4 投票 0

解释一下Spark的approxQuantile函数和percentile_approx得到的结果之间的区别

当我运行下面的代码时,我得到了结果: 分位数段 =WrappedArray(-27.0, 2.0, 4443.0),显示中位数为 2.0 val 分位数 = dfQuestions .stat .approxQuantile("sc...

回答 1 投票 0

Spark 流作为事件处理/处理解决方案(微服务)

Spark 批处理为我们的业务带来了很多价值,因为它非常容易水平扩展(我们将 AWS EMR 与 YARN 结合使用)。 然而,我们最新的专有技术带来了新的挑战

回答 1 投票 0

Pyspark 找不到数据源:kafka

我正在研究 Kafka 流并尝试将其与 Apache Spark 集成。然而,在跑步时我遇到了问题。我收到以下错误。 这是我正在使用的命令。 df_TR =

回答 1 投票 0

Spark 追加输出模式不会关闭之前的翻滚窗口?

我有一个如下所示的文本文件: a.txt ----- 约翰,100 我有以下火花应用程序: 从 pyspark.sql 导入 SparkSession 从 pyspark.sql 将函数导入为 F 来自 pyspark.sql.types 我...

回答 1 投票 0

按值过滤 RDD PySpark

我正在使用 PySpark,我正在寻找一种方法来检查: 对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

回答 1 投票 0

生成器嵌套在表达式中时不受支持

我必须简单地删除“。”在进行字数统计之前从字符串中获取。它在两个语句中工作正常,但在用单个语句编写时给出以下错误。我正在做类似的事情吗?

回答 1 投票 0

使用 serviceaccount 创建的 AWS 会话令牌针对 s3 对 Spark 应用程序进行身份验证

我正在尝试在 kubernetes 上运行 Spark 应用程序,然后该应用程序将在小型 YARN 集群上运行,但还没有那么远。 我通过 configmap 中的配置文件配置 Spark Spark 应用程序应该...

回答 1 投票 0

为什么Spark向外部表插入数据后不创建新文件?

我有一个 .csv 文件 data.csv 存储在以下位置:dbfs:/raw/data/externalTables/emp_data_folder/emp_data.csv 以下是文件中数据的示例: 爱丽丝,25,50000,北 鲍勃,30,60000,南 查理,35,

回答 1 投票 0

如何高效转换 Pyspark 数据框中的日期

我有一个 PySpark 数据框,约有 70 列和数千万行。 每个数据框都有几列包含日期(作为字符串)。有 3 种可能的日期格式 - yyyyMMdd、yyyy-MM-dd 和

回答 1 投票 0

如何使用window.partionBy()为Spark数据帧创建row_index?

我有一个带有单列的数据框,如下所示。 类型 '蝙蝠' '蝙蝠' '球' '蝙蝠' '球' '球' 在上面的数据框中,我添加了一个名为“const”的新列。 df = df.withColumn('const',F...

回答 2 投票 0

spark中的yarn.nodemanager.log-dirs在哪里?

我调查过: /etc/spark/conf 中的 log4j2.properties 纱线站点.xml yarn-env.sh (通过 YARN_LOG_DIR 它没有被设置。事实上,在运行作业时,我的

回答 1 投票 0

Databricks 笔记本命令失败并出现错误:值 SparkContext 不是 org.apache.spark.sql.SparkSession 的成员

我正在尝试获取 FileSystem 对象,以便我可以使用云存储中的文件,而无需使用 dbutils 实用程序功能。这将使我的代码可以在任何平台上运行

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.