Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
跨 Spark 执行器安装 Python 包 - 未找到 python 包,引发 ModuleNotFoundError
我有一个关于使用 Databricks 和 Mlflow 在 Spark 工作节点上安装新包的正确方法的问题。 我目前拥有的内容如下: 训练脚本(使用 cv2,即
我对其中一些问题感到好奇和困惑。如果有人可以帮助解释并分享有助于理解的参考资料,我会很高兴。 Spark 是怎么读的...
我在 Pyspark 中使用 DataFrame show 方法时出错
我尝试显示 Pyspark Dataframe,但遇到这样的错误: Py4JJavaError:调用 o607.showString 时发生错误。 :org.apache.spark.SparkException:作业由于阶段失败而中止:...
如何将 InfluxDB 数据库(有流数据传入)用作 Spark Streaming 的源? 另外,是否可以使用 InfluxDB 而不是 SparkSQL 对数据执行计算...
在 Bigquery 中写入表时出现 Pyspark 性能问题
我是 PySpark 世界的新手,在将数据从数据帧写入 Bigquery 中的表时遇到严重的性能问题。我已经尝试了我读过的所有内容、建议、使用
这里的微软文档: https://learn.microsoft.com/en-us/azure/databricks/kb/sql/find-size-of-table#size-of-a-delta-table 建议两种方法: 方法一: 导入 com.databricks.sql.transa...
如何为 PySpark 中的每个 Spark 读/写操作指定不同的 S3A 凭证?
我正在使用 PySpark,需要为同一 Spark 会话中的各种操作配置不同的 S3A 凭据。我问这个问题的原因是我需要与多个 S3 交互...
Spark Executor 在集群独立模式下无法连接到驱动程序:“连接被拒绝:主机名/ip:随机端口”
我正在使用 ZooKeeper 设置 Spark 集群(独立模式)以实现高可用性。我有 2 个主节点(s1、s2)和 3 个工作节点(s3、s4、s5)。当我尝试运行 Spark 作业时(即使是一个简单的作业)...
我当前的方法是将我的sparklyr数据框保存为tmp文件夹中的镶木地板文件,并使用SparkR来读取它。我想知道是否有更优雅的方式。 另一种方法是留下来
我们最近开始面临 Spark 2.4.4 和 hive 1.2.1 版本的问题。 当我们尝试从按字符串类型列分区的表中读取数据时 Spark.sql("从
为什么使用 getField() 在 AWSglue for scala 中为对象数组返回一个无类型,尽管确认它存在
当使用 getField() 时,我能够返回简单的值,但是当我尝试在对象数组上使用它时,它返回 None 。所以我尝试创建一个简单版本的 Scala 代码,但我遇到了问题...
带有hive thrift服务器问题的冰山表——为什么DDL命令异步执行
我正在使用 sqlalchemy 和 pyhive 连接器在运行 hive thrift 服务器的 Spark 集群上执行 SQL 语句。 使用原生 Spark 和 Delta 表,大多数事情都很简单。 I.g.我...
我有一个 scala UDF,它可以正常工作,但比应有的速度慢。 它是一个从 IP 地址查找位置的功能。这使用了一个相对较大的数据库(200+ MB),我怀疑......
我在Databricks运行时版本是13.3 LTS、scala版本2.12、spark 3.4.1上使用spark scala jar应用程序,在我的应用程序中我有一行如下所示 传入DF.write .mode("覆盖...
我正在 Glue 作业中从 S3 读取一个大文件。它是一个 .txt 文件,我将其转换为 .csv 并读取特定列中的所有值。 我想在这里利用 Glue 的并行性,其中 r...
我希望将列表作为参数传递给sparksql语句。 处理日期 = '2020-01-01' df1 = Spark.sql("""选择 '{0}', * from table1""".format(process_date)) T...
我正在胶水作业中从 S3 读取一个大文件。它是一个 .txt 文件,我将其转换为 .csv 并读取特定列中的所有值。我想在这里利用 Glue 的并行性,其中 r...
在java Spark中构建AvroParquetWriter时抛出NoSuchMethod异常
我正在使用Java和Spark并有以下代码 JavaRDD uploadedFiles = resultJavaRDD.map( rdd -> { String localFilePath = "tmp/myfi...
Pyspark 流 kafka debezium 主题错误格式,ETL
我已经使用debezium和kafka成功创建了mariadb数据库连接 当我尝试使用 pyspark 流式传输主题时 这是我得到的输出 --------------------------------------------------...
java.io.IOException:无法运行程序“/home/user/anaconda3/bin/python3”:错误= 13,权限被拒绝
我遇到了一些问题,这是在yarn上执行PySpark时发生的。 处理rdd时报如下错误: WARN Scheduler.TaskSetManager: Lost task 0.2 in stage 0.0 (TID 2, node03, exec...