apache-spark 相关问题

这里的微软文档： https://learn.microsoft.com/en-us/azure/databricks/kb/sql/find-size-of-table#size-of-a-delta-table 建议两种方法：方法一：导入 com.databricks.sql.transa...

scala apache-spark azure-databricks delta-lake

回答 3 投票 0

如何为 PySpark 中的每个 Spark 读/写操作指定不同的 S3A 凭证？

我正在使用 PySpark，需要为同一 Spark 会话中的各种操作配置不同的 S3A 凭据。我问这个问题的原因是我需要与多个 S3 交互...

apache-spark pyspark

回答 1 投票 0

Spark Executor 在集群独立模式下无法连接到驱动程序：“连接被拒绝：主机名/ip:随机端口”

我正在使用 ZooKeeper 设置 Spark 集群（独立模式）以实现高可用性。我有 2 个主节点（s1、s2）和 3 个工作节点（s3、s4、s5）。当我尝试运行 Spark 作业时（即使是一个简单的作业）...

apache-spark pyspark apache-spark-sql apache-zookeeper

回答 1 投票 0

将 Sparklyr 数据帧转换为 SparkR 数据帧

我当前的方法是将我的sparklyr数据框保存为tmp文件夹中的镶木地板文件，并使用SparkR来读取它。我想知道是否有更优雅的方式。另一种方法是留下来

r apache-spark sparkr sparklyr

回答 1 投票 0

仅在字符串 Hive 类型的分区键上支持过滤

我们最近开始面临 Spark 2.4.4 和 hive 1.2.1 版本的问题。当我们尝试从按字符串类型列分区的表中读取数据时 Spark.sql("从

apache-spark hive apache-spark-sql hive-partitions

回答 2 投票 0

为什么使用 getField() 在 AWSglue for scala 中为对象数组返回一个无类型，尽管确认它存在

当使用 getField() 时，我能够返回简单的值，但是当我尝试在对象数组上使用它时，它返回 None 。所以我尝试创建一个简单版本的 Scala 代码，但我遇到了问题...

amazon-web-services scala apache-spark aws-glue

回答 1 投票 0

带有hive thrift服务器问题的冰山表——为什么DDL命令异步执行

我正在使用 sqlalchemy 和 pyhive 连接器在运行 hive thrift 服务器的 Spark 集群上执行 SQL 语句。使用原生 Spark 和 Delta 表，大多数事情都很简单。 I.g.我...

apache-spark delta-lake pyhive apache-iceberg spark-thriftserver

回答 1 投票 0

具有长时间运行初始化的Scala UDF

我有一个 scala UDF，它可以正常工作，但比应有的速度慢。它是一个从 IP 地址查找位置的功能。这使用了一个相对较大的数据库（200+ MB），我怀疑......

scala apache-spark databricks azure-databricks

回答 1 投票 0

spark sql write.parquet 覆盖问题

我在Databricks运行时版本是13.3 LTS、scala版本2.12、spark 3.4.1上使用spark scala jar应用程序，在我的应用程序中我有一行如下所示传入DF.write .mode("覆盖...

azure scala apache-spark databricks

回答 1 投票 0

AWS Glue 中的并行性

我正在 Glue 作业中从 S3 读取一个大文件。它是一个 .txt 文件，我将其转换为 .csv 并读取特定列中的所有值。我想在这里利用 Glue 的并行性，其中 r...

python apache-spark pyspark aws-glue

回答 1 投票 0

将列表作为参数传递给spark sql语句

我希望将列表作为参数传递给sparksql语句。处理日期 = '2020-01-01' df1 = Spark.sql("""选择 '{0}', * from table1""".format(process_date)) T...

apache-spark pyspark apache-spark-sql

回答 2 投票 0

AWS Glue 中的并行性

我正在胶水作业中从 S3 读取一个大文件。它是一个 .txt 文件，我将其转换为 .csv 并读取特定列中的所有值。我想在这里利用 Glue 的并行性，其中 r...

python apache-spark pyspark aws-glue

回答 1 投票 0

在java Spark中构建AvroParquetWriter时抛出NoSuchMethod异常

我正在使用Java和Spark并有以下代码 JavaRDD uploadedFiles = resultJavaRDD.map( rdd -> { String localFilePath = "tmp/myfi...

java apache-spark avro parquet

回答 2 投票 0

Pyspark 流 kafka debezium 主题错误格式，ETL

我已经使用debezium和kafka成功创建了mariadb数据库连接当我尝试使用 pyspark 流式传输主题时这是我得到的输出 --------------------------------------------------...

apache-spark pyspark apache-kafka etl debezium

回答 1 投票 0

java.io.IOException：无法运行程序“/home/user/anaconda3/bin/python3”：错误= 13，权限被拒绝

我遇到了一些问题，这是在yarn上执行PySpark时发生的。处理rdd时报如下错误： WARN Scheduler.TaskSetManager: Lost task 0.2 in stage 0.0 (TID 2, node03, exec...

apache-spark hadoop pyspark

回答 1 投票 0

apache-spark 相关问题

最新问题