apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

我有一个 PySpark DataFrame，如下所示： ID 编号2 id3 h_生成衰减因子 h_总计 1 164 1 149.8092121 1 164 2 1417.298433 0.944908987 1558.854504 1 164 3 3833.995761 0.886920437 5216.

python apache-spark pyspark python-multiprocessing aws-glue

回答 1 投票 0

读取或写入 Parquet 格式数据时出错

我创建了一个指向具有镶木地板存储的 Azure ADLS 的外部表，在将数据插入该表时出现以下错误。我正在使用 Databricks 来执行 org.apa...

apache-spark parquet databricks azure-databricks

回答 6 投票 0

Apache Spark 警告“在 RowBasedKeyValueBatch 上调用溢出()”的含义

我正在使用 Apache Spark 本地模式运行 pyspark 2.2.0 作业，并看到以下警告：警告 RowBasedKeyValueBatch：在 RowBasedKeyValueBatch 上调用溢出（）。不会溢出但返回0。 ...

apache-spark pyspark warnings

回答 4 投票 0

由于 60 秒内未收到任何更新而强制终止查询 xxxxxx

我正在 Databricks 中使用结构化流将批处理文件加载到 UC 表中。但是它正在工作，如果 foreachBatch 没有在 60 秒内完成，则会产生以下错误： ...

apache-spark databricks azure-databricks spark-structured-streaming

回答 1 投票 0

Kafka主题对象到spark数据帧转换并写入HDFS

我正在尝试在spark编码中创建kafka消费者，在创建时我遇到了异常。我的目标是我必须从主题中读取内容并需要写入HDFS路径。 scala> df2.printSchema(...

scala dataframe apache-spark apache-kafka apache-kafka-connect

回答 1 投票 0

使用 Spark Listener 获取 Spark 作业中进行的所有读/写 SQL 查询

我想获取当前 Spark 作业中已进行的所有读/写查询（使用数据集 API）的列表。例如，数据集 readDataFrame = Spark.read() .format("...

apache-spark apache-spark-sql listener

回答 2 投票 0

do.call(.f, args, envir = .env) 中的警告：“what”必须是函数或字符串是什么意思

这就是确切的消息： do.call(.f, args, envir = .env) 中的警告： 'what' 必须是函数或字符串在 Azure Databricks 环境中使用 R、spar 进行数据处理...

r apache-spark tidyverse databricks azure-databricks

回答 3 投票 0

无法通过Kafka、JDBC源连接器和pyspark获取正确格式的postgres数据

我在Postgres中创建了一个表：如果不存在则创建表 public.sample_a （ id 文本 COLLATE pg_catalog."default" NOT NULL, is_active 布尔值 NOT NULL, is_deleted 布尔值 ...

postgresql apache-spark pyspark apache-kafka apache-kafka-connect

回答 1 投票 0

如何在 PySpark 列中搜索值序列

我有一个带有“时间”列和“值”列的数据框。例子：从 pyspark.sql 导入 SparkSession Spark = SparkSession.builder.appName("示例").getOrCrea...

apache-spark pyspark search sequence

回答 1 投票 0

隐藏 Spark 属性，使其不显示在 Spark Web UI 中，而不实现安全过滤器

位于 http://:4040 的应用程序 Web UI 在“环境”选项卡中列出了 Spark 属性。将显示通过spark-defaults.conf、SparkConf 或命令行显式指定的所有值。嗬...

apache-spark spark-streaming datastax

回答 2 投票 0

将 jar 上传到 Apache Livy 交互式会话

将 Amazon emr-5.30.1 与 Livy 0.7 和 Spark 2.4.5 结合使用我们愿意使用 Apache Livy 作为 Spark 的 REST 服务。我们想要使用的模式是会话而不是批处理。正在尝试上传 jar 包...

java apache-spark amazon-emr livy

回答 2 投票 0

在 PySpark 中进行分区时，Delta 表覆盖无法按预期工作

我正在处理一个大型数据集，这就是为什么我需要按特定 ID 进行分区的原因。我有两个笔记本可以分阶段转换数据，我确信问题出在第一个笔记本上。

apache-spark pyspark partitioning overwrite delta-lake

回答 1 投票 0

Pyspark JDBC writer：追加到 SQL 表并将截断模式设置为“true”？

在工作中处理一些代码时，我注意到一个特定的 pyspark 代码块： df.write.format('jdbc')\ .option("截断","true")\ .option( # 连接凭据 ...

sql apache-spark pyspark jdbc

回答 2 投票 0

使用 Azure Databricks python 笔记本在 Executor/Worker 中进行应用程序日志记录

我正在使用 Azure Databricks 来构建和运行 ETL 管道。对于开发，使用 Databricks 笔记本 (Python)。我的目标是通过 Spark UI 查看运行的两个代码的应用程序日志...

python apache-spark logging azure-databricks databricks-notebook

回答 1 投票 0

可以查看 JSON 格式的 Spark 历史服务器日志吗？

有什么方法可以查看JSON格式的Spark历史服务器日志吗？我正在使用 REST API curl http://localhost:8080/api/v1/applications 中的命令，但它始终以 HTML 形式返回数据。这...

apache-spark apache-spark-sql

回答 1 投票 0

VAE 模型问题 - KerasTensor 与 TensorFlow 函数不兼容

Spark版本3.4.0 Python 3.9.16 张量流2.17.0 你好，我在使用以下配置构建 VAE（变分自动编码器）模型时遇到了问题：我正在将这项工作作为

python tensorflow apache-spark

回答 1 投票 0

Pyspark：加入for循环

我有 2 个数据框产品和类别产品_df： +------+------+------+------------+ |地区|笔记本电脑|手机|空调| +------+------+------+------------+ |北| L123| M456| C789| |...

apache-spark pyspark

回答 1 投票 0

在 Java 应用程序中使用 Spark REST HTTP 服务器时读取 Spark-defaults.conf

我正在使用 Spark 休息服务器来提交作业。提交 pyspark 应用程序时，文档将 mainClass 设置为 org.apache.spark.deploy.SparkSubmit，然后将 python 脚本作为 a...

java apache-spark pyspark apache-spark-sql

回答 1 投票 0

基于时间戳持续时间合并行的棘手 pyspark 转换

我有一个 Delta Lake 表，其中包含时间列和计数（int）列。数据帧行需要合并，以便生成的数据帧应具有按 2 天间隔分组的行。时间

dataframe apache-spark pyspark delta-lake

回答 1 投票 0

使用 Scala 和 Apache Spark 检索存储的 JSON 字符串作为 Delta 表的列

要解决的问题需要从delta表中提取json字符串并最终解析它。 show函数可以用来查看数据，但需要将其提取到map或case类中进行处理。 ...

json scala apache-spark delta-lake

回答 1 投票 0

apache-spark 相关问题

最新问题