apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何在目录中列出 Iceberg 表

我试图列出启用 Iceberg 的目录中的所有表。回到 Spark-Sql 工作 Spark.sql(s"使用 ${catalogName}.${databaseName}") val 表 = Spark.sql("显示表...

apache-spark aws-glue apache-iceberg

回答 1 投票 0

为目录中现有的 Iceberg 表注册新的元数据文件/快照 - Xtable

我目前正在使用名为 Apache Xtable 的相当新的软件包，它将一种开放表格式（iceberg、hudi、delta）的元数据转换为其余两种。这有效地允许

apache-spark hive metadata apache-iceberg data-lake

回答 1 投票 0

如何（或为何）推断只写 Spark 3 TableProvider 的架构？

我正在尝试在 Spark 3 中实现 TableProvider 以写入自定义格式。我对阅读不感兴趣，所以它看起来像：类 MySpecialDataSource 扩展 TableProvider { 过度...

apache-spark apache-spark-sql

回答 1 投票 0

Apache Spark：从 S3 读取 CSV 时，software.amazon.awssdk.transfer.s3.progress.TransferListener 出现 java.lang.NoClassDefFoundError

我尝试使用 Apache Spark 从 S3 读取 CSV 文件，但遇到以下错误： java.lang.NoClassDefFoundError：软件/amazon/awssdk/transfer/s3/progress/TransferListener 在jav...

apache-spark amazon-s3

回答 1 投票 0

无法从 Spark 连接到 S3 - AmazonS3Exception 状态代码：400

我正在尝试从 Spark（在我的 PC 上运行）连接到我的 S3 存储桶： val Spark = SparkSession .builder .appName("S3Client") .config("spark.master", "本地") .getOrCreate(...

scala amazon-web-services apache-spark hadoop amazon-s3

回答 5 投票 0

Spark 中的 StreamQueryListener 不执行 onQueryProgress() 中的代码

我正在从 Databricks 增量表作为流读取数据并将其写入另一个增量表（使用屏幕截图中的控制台以便于调试），我想使用 StreamingQueryListener(...

apache-spark databricks etl spark-streaming spark-structured-streaming

回答 3 投票 0

Databricks 15.4 LTS 在连接到 Azure Key Vault 时抛出错误

我有一个在 Databricks 15.4（ARM 集群）上的 Java 17 上运行的 scala 应用程序，当执行以下代码时导入 com.azure.security.keyvault.secrets.SecretClient 导入 com.azure.security.keyvault。

apache-spark databricks azure-databricks

回答 1 投票 0

数据块中收集和挫败的内存问题

我的组织已转移到 Databricks，现在我陷入困境。当我在 16GB 笔记本电脑上进行分析时，我可以将包含 1200 万行的 1GB 数据集读取到 R 会话中，并无需任何操作即可使用它...

r apache-spark data.table databricks collect

回答 1 投票 0

如何在 PySpark 中使用隐式类型转换处理 from_json 中的字符串数字？

我有一个 PySpark DataFrame 架构，其中数量字段指定为 IntegerType。但是，当 JSON 数据包含数字的字符串表示形式（例如“30”）时，记录为

json apache-spark pyspark jsonschema implicit-conversion

回答 1 投票 0

AWS EMR-EC2 集群上的 apache-beam 安装问题

我启动了一个AWS EMR-EC2集群，我在让apache-beam的sparkrunner工作时遇到问题。我有一个将使用 apache-beam 的 python 脚本。我尝试过 aws emr add-steps 或 ssh ...

apache-spark pyspark apache-beam amazon-emr spark-submit

回答 1 投票 0

Pyspark、Hadoop 和 S3：java.lang.NoSuchMethodError：org.apache.hadoop.fs.s3a.Listing$FileStatusListingIterator

我一直面临着与让 delta-spark 直接与 S3 一起工作相关的兼容性问题，并希望获得一些建议。我已经尝试过 Spa 之间的数十种版本组合...

python apache-spark amazon-s3 hadoop pyspark

回答 1 投票 0

无法在 Spark 3.5.1 中配置 Hive Metastore 客户端 jar

我需要配置我的 Spark 3.5.1 应用程序，以便它使用特定版本的 Hive Metastore 客户端。我在可以使用的文档中读到： Spark.sql.hive.metastore.jars Spark.sql.hive.metastore.

apache-spark hadoop hive-metastore

回答 1 投票 0

spark-shell 命令抛出此错误：SparkContext：初始化 SparkContext 时出错

Spark版本：3.2.0 Java版本：8 Python版本：3.7.3 斯卡拉：sbt-1.5.5.msi 我按照此链接执行了所有步骤：https://phoenixnap.com/kb/install-spark-on-windows-10 当我运行火花时...

apache-spark

回答 5 投票 0

函数内的 Spark 缓存

我有这个玩具示例函数返回缓存的 Spark DataFrame (DF)： def foo(df): 尝试：基础 = 复杂查询(df) base.cache() # 懒惰的c...

python apache-spark pyspark azure-databricks

回答 1 投票 0

spark 结构化流式 kafka 消费者

SparkConf SparkConf = new SparkConf().setAppName("JavaDirectKafkaWordCount"); JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, Durations.seconds(2)); 设置

java apache-spark apache-kafka streaming

回答 1 投票 0

创建一个空模式，其中包含结构体

大家好，我今天有一个小问题，我想在创建空数据框时设置一些内容如果我收到的 json 字段“数据”为空，我想设置一个空模式 ...

json dataframe apache-spark pyspark

回答 1 投票 0

根据最新日期值选择行来读取 pyspark 数据帧

我有一张如下所示的表格，因为订单号是根据日期重复出现的，我只想读取其中一个最新日期。例如，在 pyspark 上获取 24/03/2022 的 A1 谢谢

python dataframe apache-spark pyspark

回答 1 投票 0

如何将Spark升级到新版本？

我有一个虚拟机，上面有 Spark 1.3，但我想将其升级到 Spark 1.5，主要是因为 1.3 中没有某些受支持的功能。我可以升级 Spark

apache-spark

回答 3 投票 0

Pyspark DataFrame.write 到 SQL Server 不尊重 .option("truncate","true") 并覆盖现有表架构

我正在尝试将 Spark 数据帧写入现有的 SQL Server 表，以便在写入之前将其截断，保留架构（特别是索引、约束和列类型）。我的

python sql-server apache-spark pyspark

回答 1 投票 0

如何重写 Spark 地图功能中的设置和清理方法

假设有以下mapreduce作业映射器： setup() 初始化一些状态 map() 将数据添加到状态，无输出 cleanup() 将状态输出到上下文减速器：将所有状态聚合为一个输出如何

scala apache-spark scalding

回答 2 投票 0

apache-spark 相关问题

最新问题