apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何在目录中列出 Iceberg 表

我试图列出启用 Iceberg 的目录中的所有表。 回到 Spark-Sql 工作 Spark.sql(s"使用 ${catalogName}.${databaseName}") val 表 = Spark.sql("显示表...

回答 1 投票 0

为目录中现有的 Iceberg 表注册新的元数据文件/快照 - Xtable

我目前正在使用名为 Apache Xtable 的相当新的软件包,它将一种开放表格式(iceberg、hudi、delta)的元数据转换为其余两种。这有效地允许

回答 1 投票 0

如何(或为何)推断只写 Spark 3 TableProvider 的架构?

我正在尝试在 Spark 3 中实现 TableProvider 以写入自定义格式。我对阅读不感兴趣,所以它看起来像: 类 MySpecialDataSource 扩展 TableProvider { 过度...

回答 1 投票 0

Apache Spark:从 S3 读取 CSV 时,software.amazon.awssdk.transfer.s3.progress.TransferListener 出现 java.lang.NoClassDefFoundError

我尝试使用 Apache Spark 从 S3 读取 CSV 文件,但遇到以下错误: java.lang.NoClassDefFoundError:软件/amazon/awssdk/transfer/s3/progress/TransferListener 在jav...

回答 1 投票 0

无法从 Spark 连接到 S3 - AmazonS3Exception 状态代码:400

我正在尝试从 Spark(在我的 PC 上运行)连接到我的 S3 存储桶: val Spark = SparkSession .builder .appName("S3Client") .config("spark.master", "本地") .getOrCreate(...

回答 5 投票 0

Spark 中的 StreamQueryListener 不执行 onQueryProgress() 中的代码

我正在从 Databricks 增量表作为流读取数据并将其写入另一个增量表(使用屏幕截图中的控制台以便于调试),我想使用 StreamingQueryListener(...

回答 3 投票 0

Databricks 15.4 LTS 在连接到 Azure Key Vault 时抛出错误

我有一个在 Databricks 15.4(ARM 集群)上的 Java 17 上运行的 scala 应用程序,当执行以下代码时 导入 com.azure.security.keyvault.secrets.SecretClient 导入 com.azure.security.keyvault。

回答 1 投票 0

数据块中收集和挫败的内存问题

我的组织已转移到 Databricks,现在我陷入困境。 当我在 16GB 笔记本电脑上进行分析时,我可以将包含 1200 万行的 1GB 数据集读取到 R 会话中,并无需任何操作即可使用它...

回答 1 投票 0

如何在 PySpark 中使用隐式类型转换处理 from_json 中的字符串数字?

我有一个 PySpark DataFrame 架构,其中数量字段指定为 IntegerType。但是,当 JSON 数据包含数字的字符串表示形式(例如“30”)时,记录为

回答 1 投票 0

AWS EMR-EC2 集群上的 apache-beam 安装问题

我启动了一个AWS EMR-EC2集群,我在让apache-beam的sparkrunner工作时遇到问题。 我有一个将使用 apache-beam 的 python 脚本。我尝试过 aws emr add-steps 或 ssh ...

回答 1 投票 0

Pyspark、Hadoop 和 S3:java.lang.NoSuchMethodError:org.apache.hadoop.fs.s3a.Listing$FileStatusListingIterator

我一直面临着与让 delta-spark 直接与 S3 一起工作相关的兼容性问题,并希望获得一些建议。我已经尝试过 Spa 之间的数十种版本组合...

回答 1 投票 0

无法在 Spark 3.5.1 中配置 Hive Metastore 客户端 jar

我需要配置我的 Spark 3.5.1 应用程序,以便它使用特定版本的 Hive Metastore 客户端。 我在可以使用的文档中读到: Spark.sql.hive.metastore.jars Spark.sql.hive.metastore.

回答 1 投票 0

spark-shell 命令抛出此错误:SparkContext:初始化 SparkContext 时出错

Spark版本:3.2.0 Java版本:8 Python版本:3.7.3 斯卡拉:sbt-1.5.5.msi 我按照此链接执行了所有步骤:https://phoenixnap.com/kb/install-spark-on-windows-10 当我运行火花时...

回答 5 投票 0

函数内的 Spark 缓存

我有这个玩具示例函数返回缓存的 Spark DataFrame (DF): def foo(df): 尝试: 基础 = 复杂查询(df) base.cache() # 懒惰的c...

回答 1 投票 0

spark 结构化流式 kafka 消费者

SparkConf SparkConf = new SparkConf().setAppName("JavaDirectKafkaWordCount"); JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, Durations.seconds(2)); 设置

回答 1 投票 0

创建一个空模式,其中包含结构体

大家好,我今天有一个小问题,我想在创建空数据框时设置一些内容 如果我收到的 json 字段“数据”为空,我想设置一个空模式 ...

回答 1 投票 0

根据最新日期值选择行来读取 pyspark 数据帧

我有一张如下所示的表格,因为订单号是根据日期重复出现的,我只想读取其中一个最新日期。例如,在 pyspark 上获取 24/03/2022 的 A1 谢谢

回答 1 投票 0

如何将Spark升级到新版本?

我有一个虚拟机,上面有 Spark 1.3,但我想将其升级到 Spark 1.5,主要是因为 1.3 中没有某些受支持的功能。我可以升级 Spark

回答 3 投票 0

Pyspark DataFrame.write 到 SQL Server 不尊重 .option("truncate","true") 并覆盖现有表架构

我正在尝试将 Spark 数据帧写入现有的 SQL Server 表,以便在写入之前将其截断,保留架构(特别是索引、约束和列类型)。我的

回答 1 投票 0

如何重写 Spark 地图功能中的设置和清理方法

假设有以下mapreduce作业 映射器: setup() 初始化一些状态 map() 将数据添加到状态,无输出 cleanup() 将状态输出到上下文 减速器: 将所有状态聚合为一个输出 如何

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.