Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
Spark DataFrame 中由于在特定分区上过滤时过滤器表达式过多而出现 StackOverflowError
我正在开发一个 Spark (Scala) 应用程序,我需要过滤掉特定分区(嵌套):region_name/audit_submission_date_hr_min。 Region_name 是顶级分区。
在集群中的执行器上运行 python 脚本 [Scala/Spark]
我有python脚本: 导入系统 对于 sys.stdin 中的行: 打印(“你好”+行) 我在集群中的工作人员上运行它: def run(spark: SparkSession) = { val data = List("约翰"...
使用 JDBC 驱动程序从 Apache Ignite 读取会出现 SQLException:获取大小必须大于零
我正在尝试使用 PySpark 从 Apache Ignite 表中读取一些数据。 Spark.read.format("jdbc").option("driver", "org.apache.ignite.IgniteJdbcThinDriver")\ .选项(&q...
PIVOT 如何将 Dataframe api 转换为 Spark SQL
在将 dataframe api 转换为 Spark SQL 时,我得到了不同的输出。指出我错过了 sql 逻辑的地方。 我有一个名为演示的表,有两列值和标记。值列是 seq
如何从 pyspark sql 上的大表中选择除其中 2 列之外的所有列?
在连接两个表时,我想从 databricks 上的 pyspark sql 上有许多列的大表中选择除其中 2 之外的所有列。 我的 pyspark sql: %sql 设置 hive.support.quoted.identifi...
如何将 Spark 配置添加到 DatabricksSession
我曾经使用自定义 Spark 对象定义如下: 从 pyspark.sql 导入 SparkSession Spark_builder = SparkSession.builder.appName(settings.project_name) 配置 = {**self.DEFAULT_CONFI...
如何在 PySpark 中使用正则表达式从 UDF 中获取最后一个特定字符?
我正在尝试使用正则表达式(regex)从 PySpark DataFrame 中提取最后一个字符,以便执行一些数据清理和解析为列。 目前,我正在使用 UDF (U...
Hive 表是从 Spark 创建的,但在 hive 中不可见
来自 Spark 使用: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存,我可以使用下面命令的 hadoop fs -ls /apps/hive/warehouse est 看到......
解释一下Spark的approxQuantile函数和percentile_approx得到的结果之间的区别
当我运行下面的代码时,我得到了结果: 分位数段 =WrappedArray(-27.0, 2.0, 4443.0),显示中位数为 2.0 val 分位数 = dfQuestions .stat .approxQuantile("sc...
Spark 批处理为我们的业务带来了很多价值,因为它非常容易水平扩展(我们将 AWS EMR 与 YARN 结合使用)。 然而,我们最新的专有技术带来了新的挑战
我正在研究 Kafka 流并尝试将其与 Apache Spark 集成。然而,在跑步时我遇到了问题。我收到以下错误。 这是我正在使用的命令。 df_TR =
我有一个如下所示的文本文件: a.txt ----- 约翰,100 我有以下火花应用程序: 从 pyspark.sql 导入 SparkSession 从 pyspark.sql 将函数导入为 F 来自 pyspark.sql.types 我...
我正在使用 PySpark,我正在寻找一种方法来检查: 对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息
我必须简单地删除“。”在进行字数统计之前从字符串中获取。它在两个语句中工作正常,但在用单个语句编写时给出以下错误。我正在做类似的事情吗?
使用 serviceaccount 创建的 AWS 会话令牌针对 s3 对 Spark 应用程序进行身份验证
我正在尝试在 kubernetes 上运行 Spark 应用程序,然后该应用程序将在小型 YARN 集群上运行,但还没有那么远。 我通过 configmap 中的配置文件配置 Spark Spark 应用程序应该...
我有一个 .csv 文件 data.csv 存储在以下位置:dbfs:/raw/data/externalTables/emp_data_folder/emp_data.csv 以下是文件中数据的示例: 爱丽丝,25,50000,北 鲍勃,30,60000,南 查理,35,
我有一个 PySpark 数据框,约有 70 列和数千万行。 每个数据框都有几列包含日期(作为字符串)。有 3 种可能的日期格式 - yyyyMMdd、yyyy-MM-dd 和
如何使用window.partionBy()为Spark数据帧创建row_index?
我有一个带有单列的数据框,如下所示。 类型 '蝙蝠' '蝙蝠' '球' '蝙蝠' '球' '球' 在上面的数据框中,我添加了一个名为“const”的新列。 df = df.withColumn('const',F...
spark中的yarn.nodemanager.log-dirs在哪里?
我调查过: /etc/spark/conf 中的 log4j2.properties 纱线站点.xml yarn-env.sh (通过 YARN_LOG_DIR 它没有被设置。事实上,在运行作业时,我的
Databricks 笔记本命令失败并出现错误:值 SparkContext 不是 org.apache.spark.sql.SparkSession 的成员
我正在尝试获取 FileSystem 对象,以便我可以使用云存储中的文件,而无需使用 dbutils 实用程序功能。这将使我的代码可以在任何平台上运行