apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

Spark DataFrame 中由于在特定分区上过滤时过滤器表达式过多而出现 StackOverflowError

我正在开发一个 Spark (Scala) 应用程序，我需要过滤掉特定分区（嵌套）：region_name/audit_submission_date_hr_min。 Region_name 是顶级分区。

apache-spark databricks query-optimization

回答 1 投票 0

在集群中的执行器上运行 python 脚本 [Scala/Spark]

我有python脚本：导入系统对于 sys.stdin 中的行：打印（“你好”+行）我在集群中的工作人员上运行它： def run(spark: SparkSession) = { val data = List("约翰"...

python scala apache-spark hadoop hdfs

回答 1 投票 0

使用 JDBC 驱动程序从 Apache Ignite 读取会出现 SQLException：获取大小必须大于零

我正在尝试使用 PySpark 从 Apache Ignite 表中读取一些数据。 Spark.read.format("jdbc").option("driver", "org.apache.ignite.IgniteJdbcThinDriver")\ .选项(&q...

apache-spark pyspark jdbc ignite

回答 1 投票 0

PIVOT 如何将 Dataframe api 转换为 Spark SQL

在将 dataframe api 转换为 Spark SQL 时，我得到了不同的输出。指出我错过了 sql 逻辑的地方。我有一个名为演示的表，有两列值和标记。值列是 seq

apache-spark pyspark apache-spark-sql databricks

回答 1 投票 0

如何从 pyspark sql 上的大表中选择除其中 2 列之外的所有列？

在连接两个表时，我想从 databricks 上的 pyspark sql 上有许多列的大表中选择除其中 2 之外的所有列。我的 pyspark sql： %sql 设置 hive.support.quoted.identifi...

python sql apache-spark pyspark hive

回答 4 投票 0

如何将 Spark 配置添加到 DatabricksSession

我曾经使用自定义 Spark 对象定义如下：从 pyspark.sql 导入 SparkSession Spark_builder = SparkSession.builder.appName(settings.project_name) 配置 = {**self.DEFAULT_CONFI...

python apache-spark pyspark azure-databricks

回答 1 投票 0

如何在 PySpark 中使用正则表达式从 UDF 中获取最后一个特定字符？

我正在尝试使用正则表达式（regex）从 PySpark DataFrame 中提取最后一个字符，以便执行一些数据清理和解析为列。目前，我正在使用 UDF (U...

regex apache-spark pyspark apache-spark-sql

回答 1 投票 0

Hive 表是从 Spark 创建的，但在 hive 中不可见

来自 Spark 使用： DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存，我可以使用下面命令的 hadoop fs -ls /apps/hive/warehouse est 看到......

apache-spark hive hiveql hivecontext

回答 4 投票 0

解释一下Spark的approxQuantile函数和percentile_approx得到的结果之间的区别

当我运行下面的代码时，我得到了结果：分位数段 =WrappedArray(-27.0, 2.0, 4443.0)，显示中位数为 2.0 val 分位数 = dfQuestions .stat .approxQuantile("sc...

apache-spark hive

回答 1 投票 0

Spark 流作为事件处理/处理解决方案（微服务）

Spark 批处理为我们的业务带来了很多价值，因为它非常容易水平扩展（我们将 AWS EMR 与 YARN 结合使用）。然而，我们最新的专有技术带来了新的挑战

apache-spark event-handling spark-streaming microservices

回答 1 投票 0

Pyspark 找不到数据源：kafka

我正在研究 Kafka 流并尝试将其与 Apache Spark 集成。然而，在跑步时我遇到了问题。我收到以下错误。这是我正在使用的命令。 df_TR =

apache-spark pyspark apache-spark-sql spark-kafka-integration

回答 1 投票 0

Spark 追加输出模式不会关闭之前的翻滚窗口？

我有一个如下所示的文本文件： a.txt ----- 约翰，100 我有以下火花应用程序：从 pyspark.sql 导入 SparkSession 从 pyspark.sql 将函数导入为 F 来自 pyspark.sql.types 我...

apache-spark pyspark

回答 1 投票 0

按值过滤 RDD PySpark

我正在使用 PySpark，我正在寻找一种方法来检查：对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

apache-spark mapreduce pyspark apache-spark-sql rdd

回答 1 投票 0

生成器嵌套在表达式中时不受支持

我必须简单地删除“。”在进行字数统计之前从字符串中获取。它在两个语句中工作正常，但在用单个语句编写时给出以下错误。我正在做类似的事情吗？

scala apache-spark nested expression

回答 1 投票 0

使用 serviceaccount 创建的 AWS 会话令牌针对 s3 对 Spark 应用程序进行身份验证

我正在尝试在 kubernetes 上运行 Spark 应用程序，然后该应用程序将在小型 YARN 集群上运行，但还没有那么远。我通过 configmap 中的配置文件配置 Spark Spark 应用程序应该...

apache-spark amazon-s3 amazon-eks

回答 1 投票 0

为什么Spark向外部表插入数据后不创建新文件？

我有一个 .csv 文件 data.csv 存储在以下位置：dbfs:/raw/data/externalTables/emp_data_folder/emp_data.csv 以下是文件中数据的示例：爱丽丝,25,50000,北鲍勃,30,60000,南查理，35，

apache-spark hive databricks external-tables

回答 1 投票 0

如何高效转换 Pyspark 数据框中的日期

我有一个 PySpark 数据框，约有 70 列和数千万行。每个数据框都有几列包含日期（作为字符串）。有 3 种可能的日期格式 - yyyyMMdd、yyyy-MM-dd 和

python python-3.x apache-spark pyspark

回答 1 投票 0

如何使用window.partionBy()为Spark数据帧创建row_index？

我有一个带有单列的数据框，如下所示。类型 '蝙蝠' '蝙蝠' '球' '蝙蝠' '球' '球' 在上面的数据框中，我添加了一个名为“const”的新列。 df = df.withColumn('const',F...

apache-spark pyspark apache-spark-sql

回答 2 投票 0

spark中的yarn.nodemanager.log-dirs在哪里？

我调查过： /etc/spark/conf 中的 log4j2.properties 纱线站点.xml yarn-env.sh （通过 YARN_LOG_DIR 它没有被设置。事实上，在运行作业时，我的

apache-spark hadoop hadoop-yarn

回答 1 投票 0

Databricks 笔记本命令失败并出现错误：值 SparkContext 不是 org.apache.spark.sql.SparkSession 的成员

我正在尝试获取 FileSystem 对象，以便我可以使用云存储中的文件，而无需使用 dbutils 实用程序功能。这将使我的代码可以在任何平台上运行

apache-spark filesystems databricks databricks-unity-catalog

回答 1 投票 0

apache-spark 相关问题

最新问题