apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

带有partitionColumn的Spark JDBC Postgres会产生重复和缺失的行

我正在使用具有 10 个连接的 Spark JDBC 从 POSTGRES 表中读取数据，并使用 RNO 作为分区列，边界范围从 0 到表中的行数。这张桌子是动态的...

postgresql apache-spark

回答 1 投票 0

获取 Spark 中实际持久化的 DataFrame 列表

我正在使用 Databricks 笔记本。我想以编程方式查找实际上已通过操作调用缓存的 DataFrame 列表，即 .cache() 后跟一个操作，例如 .sho...

python apache-spark pyspark azure-databricks

回答 1 投票 0

PySpark：对象的长度与字段的长度不匹配 - 创建新模式

我目前正在使用 AWS Glue 和 PySpark。我正在尝试手动创建 Spark 架构并将其应用到数据帧以修复某些列的一些问题。我目前的问题是

python apache-spark

回答 1 投票 0

如何将 PySpark Pandas Dataframe 转换为 PySpark Dataframe？

我有一个数据集存储在 pyspark.pandas.frame.DataFrame 中，我想在将其保存到增量文件之前将其转换为 pyspark.sql.DataFrame。哪种方法是正确的？ PS：原因

python pandas apache-spark pyspark

回答 1 投票 0

使用 SBT 构建不同的库版本

我正在尝试使用 SBT 构建我的 Scala 源代码，目标是相同的 Scala 版本但不同版本的库。我的问题是： SBT 支持吗？（似乎不太可能）如果没有的话有没有...

scala apache-spark sbt

回答 2 投票 0

如何在 Spark 中动态应用数组列类型

我有一个 PySpark DataFrame，其中包含一个字符串列，其中包含结构为对象数组的 JSON 数据。但是，这些 JSON 对象的架构可能因行而异。这是两个例子...

python apache-spark pyspark apache-spark-sql spark-streaming

回答 1 投票 0

如何从 Spark 作业中检索通过 Dataproc 提交的作业的 jobId

我想获取在 Spark 上下文中运行的 Spark 作业的 jobId。 Dataproc 是否将此信息存储在 Spark Context 中？

apache-spark spark-streaming google-cloud-dataproc dataproc

回答 3 投票 0

在 Docker 容器中使用 Apache Spark 设置统一目录

我正在尝试使用 Apache Spark 3.5.2 在 docker 容器中设置 unity 目录，但遇到错误。我按照本文档使用 apache Spark 设置和测试 unity 目录。根据

apache-spark oss-unity-catalog

回答 1 投票 0

使用 Spark 高效读取 PDF/文本/Word 文件

我正在对我的数据进行NLP（自然语言处理）处理。数据采用文件形式，可以是 PDF/Text/Word/HTML 类型。这些文件存储在 lo...

java apache-spark hdfs file-format

回答 2 投票 0

如何在pyspark databricks笔记本中读取excel文件格式

如何使用pyspark编程读取azure databricks笔记本中的xlsx文件格式？ Spark.read.format('excel').load('/mnt/adls/file.xlsx') 是否可以在没有外部库的情况下访问...

apache-spark pyspark azure-databricks azure-python-sdk

回答 1 投票 0

在PySpark环境中通过JDBC将数据写入ADW效果不佳

我尝试在 Jupyter Lab 环境中使用 JDBC 将 PySpark DataFrame 写入 ADW（Oracle 自治数据仓库），但性能较低。 dataframe.format("jdbc").mode('overw...

apache-spark pyspark jdbc data-warehouse oracle-autonomous-db

回答 1 投票 0

Spark 结构化流可用，失败时触发结束偏移？

我想知道使用AvailableNow Trigger并且查询期间出现查询失败时spark结构化流应该有什么行为？更具体地说，会发生什么......

apache-spark spark-structured-streaming

回答 1 投票 0

向iceberg表插入数据时列位置变化如何处理？

假设我有一个包含三列 A、B、C 的表。如果源停止发送 B 数据（我们假设它已在文件中删除，而不是在表模式中删除）。几天后，如果来源想添加该列...

apache-spark schema multiple-columns apache-iceberg data-ingestion

回答 1 投票 0

不要忽略 MAX 中的 NULL [重复]

使用此数据框：从 pyspark.sql 将函数导入为 F df = Spark.createDataFrame([(无,), (1,), (2,)], ['col_name']) df.show() # +--------+ # |列名| # +--------+ ＃| 空| ＃| ...

apache-spark pyspark apache-spark-sql null max

回答 1 投票 0

为什么在 Windows 上，spark-shell 会失败并显示“'”“C:\Program' 未被识别为内部或外部命令”？

运行以下命令提示符时，我收到屏幕截图中所示的错误。命令： c:\spark>spark-shell 错误： '""C:\Program' 不被识别为内部或外部逗号...

windows apache-spark

回答 10 投票 0

Pyspark cassandra 连接器 NoclassDefFoundError，util/logging

我下载了spark-cassandra-connector_3.12-3.2.0.jar并放入/apache-spark/3.2.1/libexec/jars文件夹中。在conf中调用这个jar，如下所示： conf=SparkConf().setAppName("d").setMasetMast...

apache-spark cassandra spark-cassandra-connector

回答 2 投票 0

Spark 3.0 - 从 MQTT 流读取数据

我想将数据流从基于 mosquitto 的 MQTT 主题读取到我的 Spark 3.0 应用程序中。我尝试通过以下方式使用 Bahir 库：数据集 df = SparkSession .

apache-spark apache-spark-sql spark-streaming mqtt mosquitto

回答 1 投票 0

kinit：在获取初始凭据时，客户端的凭据已被撤销

我的 hdp 集群配置了带有 AD 的 kerberos。所有 HDP 服务帐户都生成了主体和密钥表，包括 Spark。我知道服务帐户不会有密码并设置为 unex...

hadoop apache-spark active-directory kerberos hortonworks-data-platform

回答 4 投票 0

org.apache.spark.SparkException：Python 工作线程无法重新连接

我正在尝试使用 createDataFrame 方法创建一个数据框，但收到以下代码的错误，从 pyspark.sql 导入 SparkSession # 创建 Spark 会话火花 = SparkSession.build...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

设置 Jupyter Pyspark 在 EC2 和 EMR 之间工作

我有一个 Spark 集群在 EMR 中运行。我还有一个在第二台 EC2 机器上运行的 jupyter 笔记本。我想通过 jupyter 在我的 EC2 实例上使用 Spark。我正在寻找有关ho的参考资料...

amazon-web-services apache-spark amazon-ec2 pyspark jupyter-notebook

回答 4 投票 0

apache-spark 相关问题

最新问题