apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

跨 Spark 执行器安装 Python 包 - 未找到 python 包,引发 ModuleNotFoundError

我有一个关于使用 Databricks 和 Mlflow 在 Spark 工作节点上安装新包的正确方法的问题。 我目前拥有的内容如下: 训练脚本(使用 cv2,即

回答 1 投票 0

spark如何从本地文件系统或云存储读取文件

我对其中一些问题感到好奇和困惑。如果有人可以帮助解释并分享有助于理解的参考资料,我会很高兴。 Spark 是怎么读的...

回答 1 投票 0

我在 Pyspark 中使用 DataFrame show 方法时出错

我尝试显示 Pyspark Dataframe,但遇到这样的错误: Py4JJavaError:调用 o607.showString 时发生错误。 :org.apache.spark.SparkException:作业由于阶段失败而中止:...

回答 2 投票 0

InfluxDB如何用作Spark Source

如何将 InfluxDB 数据库(有流数据传入)用作 Spark Streaming 的源? 另外,是否可以使用 InfluxDB 而不是 SparkSQL 对数据执行计算...

回答 1 投票 0

在 Bigquery 中写入表时出现 Pyspark 性能问题

我是 PySpark 世界的新手,在将数据从数据帧写入 Bigquery 中的表时遇到严重的性能问题。我已经尝试了我读过的所有内容、建议、使用

回答 1 投票 0

如何快速准确的找到Delta表的大小?

这里的微软文档: https://learn.microsoft.com/en-us/azure/databricks/kb/sql/find-size-of-table#size-of-a-delta-table 建议两种方法: 方法一: 导入 com.databricks.sql.transa...

回答 3 投票 0

如何为 PySpark 中的每个 Spark 读/写操作指定不同的 S3A 凭证?

我正在使用 PySpark,需要为同一 Spark 会话中的各种操作配置不同的 S3A 凭据。我问这个问题的原因是我需要与多个 S3 交互...

回答 1 投票 0

Spark Executor 在集群独立模式下无法连接到驱动程序:“连接被拒绝:主机名/ip:随机端口”

我正在使用 ZooKeeper 设置 Spark 集群(独立模式)以实现高可用性。我有 2 个主节点(s1、s2)和 3 个工作节点(s3、s4、s5)。当我尝试运行 Spark 作业时(即使是一个简单的作业)...

回答 1 投票 0

将 Sparklyr 数据帧转换为 SparkR 数据帧

我当前的方法是将我的sparklyr数据框保存为tmp文件夹中的镶木地板文件,并使用SparkR来读取它。我想知道是否有更优雅的方式。 另一种方法是留下来

回答 1 投票 0

仅在字符串 Hive 类型的分区键上支持过滤

我们最近开始面临 Spark 2.4.4 和 hive 1.2.1 版本的问题。 当我们尝试从按字符串类型列分区的表中读取数据时 Spark.sql("从

回答 2 投票 0

为什么使用 getField() 在 AWSglue for scala 中为对象数组返回一个无类型,尽管确认它存在

当使用 getField() 时,我能够返回简单的值,但是当我尝试在对象数组上使用它时,它返回 None 。所以我尝试创建一个简单版本的 Scala 代码,但我遇到了问题...

回答 1 投票 0

带有hive thrift服务器问题的冰山表——为什么DDL命令异步执行

我正在使用 sqlalchemy 和 pyhive 连接器在运行 hive thrift 服务器的 Spark 集群上执行 SQL 语句。 使用原生 Spark 和 Delta 表,大多数事情都很简单。 I.g.我...

回答 1 投票 0

具有长时间运行初始化的Scala UDF

我有一个 scala UDF,它可以正常工作,但比应有的速度慢。 它是一个从 IP 地址查找位置的功能。这使用了一个相对较大的数据库(200+ MB),我怀疑......

回答 1 投票 0

spark sql write.parquet 覆盖问题

我在Databricks运行时版本是13.3 LTS、scala版本2.12、spark 3.4.1上使用spark scala jar应用程序,在我的应用程序中我有一行如下所示 传入DF.write .mode("覆盖...

回答 1 投票 0

AWS Glue 中的并行性

我正在 Glue 作业中从 S3 读取一个大文件。它是一个 .txt 文件,我将其转换为 .csv 并读取特定列中的所有值。 我想在这里利用 Glue 的并行性,其中 r...

回答 1 投票 0

将列表作为参数传递给spark sql语句

我希望将列表作为参数传递给sparksql语句。 处理日期 = '2020-01-01' df1 = Spark.sql("""选择 '{0}', * from table1""".format(process_date)) T...

回答 2 投票 0

AWS Glue 中的并行性

我正在胶水作业中从 S3 读取一个大文件。它是一个 .txt 文件,我将其转换为 .csv 并读取特定列中的所有值。我想在这里利用 Glue 的并行性,其中 r...

回答 1 投票 0

在java Spark中构建AvroParquetWriter时抛出NoSuchMethod异常

我正在使用Java和Spark并有以下代码 JavaRDD uploadedFiles = resultJavaRDD.map( rdd -> { String localFilePath = "tmp/myfi...

回答 2 投票 0

Pyspark 流 kafka debezium 主题错误格式,ETL

我已经使用debezium和kafka成功创建了mariadb数据库连接 当我尝试使用 pyspark 流式传输主题时 这是我得到的输出 --------------------------------------------------...

回答 1 投票 0

java.io.IOException:无法运行程序“/home/user/anaconda3/bin/python3”:错误= 13,权限被拒绝

我遇到了一些问题,这是在yarn上执行PySpark时发生的。 处理rdd时报如下错误: WARN Scheduler.TaskSetManager: Lost task 0.2 in stage 0.0 (TID 2, node03, exec...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.