Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
带有partitionColumn的Spark JDBC Postgres会产生重复和缺失的行
我正在使用具有 10 个连接的 Spark JDBC 从 POSTGRES 表中读取数据,并使用 RNO 作为分区列,边界范围从 0 到表中的行数。 这张桌子是动态的...
我正在使用 Databricks 笔记本。我想以编程方式查找实际上已通过操作调用缓存的 DataFrame 列表,即 .cache() 后跟一个操作,例如 .sho...
PySpark:对象的长度与字段的长度不匹配 - 创建新模式
我目前正在使用 AWS Glue 和 PySpark。我正在尝试手动创建 Spark 架构并将其应用到数据帧以修复某些列的一些问题。 我目前的问题是
如何将 PySpark Pandas Dataframe 转换为 PySpark Dataframe?
我有一个数据集存储在 pyspark.pandas.frame.DataFrame 中,我想在将其保存到增量文件之前将其转换为 pyspark.sql.DataFrame。哪种方法是正确的? PS:原因
我正在尝试使用 SBT 构建我的 Scala 源代码,目标是相同的 Scala 版本但不同版本的库。我的问题是: SBT 支持吗? (似乎不太可能) 如果没有的话有没有...
我有一个 PySpark DataFrame,其中包含一个字符串列,其中包含结构为对象数组的 JSON 数据。但是,这些 JSON 对象的架构可能因行而异。 这是两个例子...
如何从 Spark 作业中检索通过 Dataproc 提交的作业的 jobId
我想获取在 Spark 上下文中运行的 Spark 作业的 jobId。 Dataproc 是否将此信息存储在 Spark Context 中?
在 Docker 容器中使用 Apache Spark 设置统一目录
我正在尝试使用 Apache Spark 3.5.2 在 docker 容器中设置 unity 目录,但遇到错误。 我按照本文档使用 apache Spark 设置和测试 unity 目录。 根据
我正在对我的数据进行NLP(自然语言处理)处理。数据采用文件形式,可以是 PDF/Text/Word/HTML 类型。这些文件存储在 lo...
如何在pyspark databricks笔记本中读取excel文件格式
如何使用pyspark编程读取azure databricks笔记本中的xlsx文件格式? Spark.read.format('excel').load('/mnt/adls/file.xlsx') 是否可以在没有外部库的情况下访问...
我尝试在 Jupyter Lab 环境中使用 JDBC 将 PySpark DataFrame 写入 ADW(Oracle 自治数据仓库),但性能较低。 dataframe.format("jdbc").mode('overw...
我想知道使用AvailableNow Trigger并且查询期间出现查询失败时spark结构化流应该有什么行为?更具体地说,会发生什么......
假设我有一个包含三列 A、B、C 的表。如果源停止发送 B 数据(我们假设它已在文件中删除,而不是在表模式中删除)。几天后,如果来源想添加该列...
使用此数据框: 从 pyspark.sql 将函数导入为 F df = Spark.createDataFrame([(无,), (1,), (2,)], ['col_name']) df.show() # +--------+ # |列名| # +--------+ #| 空| #| ...
为什么在 Windows 上,spark-shell 会失败并显示“'”“C:\Program' 未被识别为内部或外部命令”?
运行以下命令提示符时,我收到屏幕截图中所示的错误。 命令: c:\spark>spark-shell 错误: '""C:\Program' 不被识别为内部或外部逗号...
Pyspark cassandra 连接器 NoclassDefFoundError,util/logging
我下载了spark-cassandra-connector_3.12-3.2.0.jar并放入/apache-spark/3.2.1/libexec/jars文件夹中。 在conf中调用这个jar,如下所示: conf=SparkConf().setAppName("d").setMasetMast...
我想将数据流从基于 mosquitto 的 MQTT 主题读取到我的 Spark 3.0 应用程序中。我尝试通过以下方式使用 Bahir 库: 数据集 df = SparkSession .
我的 hdp 集群配置了带有 AD 的 kerberos。所有 HDP 服务帐户都生成了主体和密钥表,包括 Spark。 我知道服务帐户不会有密码并设置为 unex...
org.apache.spark.SparkException:Python 工作线程无法重新连接
我正在尝试使用 createDataFrame 方法创建一个数据框,但收到以下代码的错误, 从 pyspark.sql 导入 SparkSession # 创建 Spark 会话 火花 = SparkSession.build...
设置 Jupyter Pyspark 在 EC2 和 EMR 之间工作
我有一个 Spark 集群在 EMR 中运行。我还有一个在第二台 EC2 机器上运行的 jupyter 笔记本。我想通过 jupyter 在我的 EC2 实例上使用 Spark。我正在寻找有关ho的参考资料...