apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

在 Spark SQL 中编写 SQL 与使用 Dataframe API

我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码，其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC（更改数据捕获），

apache-spark pyspark apache-spark-sql hive hdfs

回答 4 投票 0

使用 Spark Cassandra 连接器的不同方式

我尝试使用 Spark Cassandra Connector 在 Cassandra 中的数据之上进行分析，并发现了两种类型的实现。谁能阐明两者之间的区别和优点/

apache-spark cassandra spark-cassandra-connector

回答 1 投票 0

如何在 Spark 和 Cassandra 中将数据从较小的表映射到较大的表？（第一个表的主键是第二个表的分区键）

所以这是我的表1：案例类别表1( key1: String //（主键），值1：字符串）表2：案例类别表2( key1: String //（分区键） key2: String //（主键） ...

apache-spark cassandra rdd datastax-enterprise spark-cassandra-connector

回答 1 投票 0

如何将pyspark daframe保存为jsonl/json文件？

为此问题设计的示例。我有一个 pyspark 数据框，为了方便起见，我对数据进行了硬编码，但我有一堆 csv 文件读入数据框。我可以将数据帧保存为 json ...

pandas amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

Pyspark 在读取 parquet 时强制模式

我有一个镶木地板源，其“年份”列一样长，并且我已在表中将其指定为 int 。在读取镶木地板时，我指定了表的架构来强制它，但它却给出了错误......

python apache-spark pyspark databricks

回答 1 投票 0

Spark/Pyspark 如何使用spark.conf.set 设置属性

想知道使用spark.conf.set设置某些属性的确切语法（在Pyspark中）。我见过多种方法，但不确定哪种方法是正确的。假设我想设置spark.sql.adaptive。

apache-spark pyspark

回答 1 投票 0

从Databricks中的UDF内部查询Delta Lake

需要在结构化流中对 UDF 内的表执行一些查询。问题是，在 UDF 内部，如果我尝试使用 Spark.sql，我会收到空指针异常。最好的方法是什么

apache-spark user-defined-functions databricks spark-structured-streaming delta-lake

回答 1 投票 0

PySpark 和 Cassandra

我对如何使用pyspark和cassandra连接器感到非常困惑。有些帖子说这只是使用 pyspark 中的 SparkContext 和 SparkSession 的问题，而其他帖子则说这些不起作用......

apache-spark pyspark cassandra spark-cassandra-connector datastax-astra

回答 1 投票 0

Pyspark：是否可以在不使用 python RDD 的情况下将 Java RDD 转换为 Pyspark Dataframe？

我们有一个非常复杂的 pyspark 作业，具有庞大的执行计划。以前生成计划大约需要 20-30 分钟。就计划时间而言，缓存并没有真正改善太多。我

apache-spark pyspark

回答 1 投票 0

Spark 应用程序中出现 java.lang.NoClassDefFoundError 错误

我正在尝试使用 /usr/local/spark# ./bin/spark-submit --class "DataframeExample" --master local[2] ~/new/hbfinance-module-1.0 向 Spark 提交 JAR 文件-SNAPSHOT.jar /。我正在使用阿帕奇

java apache-spark

回答 3 投票 0

静态和流数据帧之间的 Spark 结构化流连接

我正在阅读有关 Spark 结构化流连接的信息，并遇到了静态到流数据集支持的连接类型。我有一个问题，为什么不支持它，因为据我所知...

apache-spark spark-streaming

回答 1 投票 0

如何在spark集群环境下高效训练word2vec模型？

我想在我的 Spark 集群上训练有关 10G 新闻语料库的 word2vec 模型。以下是我的spark集群的配置：一名师傅和四名工人每个都有80G内存和24个核心然而...

apache-spark machine-learning word2vec

回答 2 投票 0

为什么元数据消耗大量存储以及如何优化？

我在基于 HDFS 的数据湖上使用 PySpark 和 Apache Iceberg，并且遇到了严重的存储问题。我的应用程序每秒都会摄取实时数据。大约2小时后，我...

apache-spark pyspark hdfs streaming apache-iceberg

回答 1 投票 0

在 Spark 3.4.1 代码中显式处理架构

我曾经对 Spark 代码应用一些补丁来显式处理更具体的数据类型和结构。带补丁的旧 Spark 代码：私有 def serializerFor(inputObject: 表达式, typeToken:

scala apache-spark

回答 1 投票 0

无法使用java初始化spark上下文

我正在尝试使用spark一个简单的工作计数程序，但是当我尝试初始化spark上下文时它失败了。下面是我的代码 conf = 新的 SparkConf(true). setAppName("字数"). ...

java hadoop apache-spark

回答 3 投票 0

pyspark中的阅读词典专栏

我在 pyspark 数据框（字典）中有一个复杂的列。每行有三个键，string_value、timestamp 和 user_property。 User_property 包含其他数组中对应值的名称。

dictionary apache-spark pyspark

回答 1 投票 0

如何使用pyspark VectorAssembler

我正在尝试使用pyspark的VectorAssembler函数，但它似乎无法正常工作。我有一个 Twitter 数据的数据框，其中每个主题标签为一行，每一天为一列

python apache-spark pyspark

回答 2 投票 0

Azure Synapse Analytics，笔记本失败，并显示“本机 zStandard 库不可用：此版本的 libhadoop 是在没有 zstd 支持的情况下构建的。”

之前的 PySpark 笔记本运行没有问题。本周，它因以下错误而失败：“java.lang.RuntimeException：本机 zStandard 库不可用：此版本的 libhadoop 是

apache-spark jupyter-notebook azure-synapse

回答 1 投票 0

如何将spark.sql查询中引用为table的所有出现的表名替换为另一个？

例如我有一个SQL查询 SELECT id, "delta.`/example/table/path`" FROM delta.`/example/table/path` WHERE str LIKE "%delta.`/example/table/path`" 我怎样才能只更换

string scala apache-spark

回答 1 投票 0

无法将写入的kafka主题中的数据推送到Postgres表

我正在尝试将写入Kafka主题的数据加载到Postgres表中。我可以看到该主题每秒都在接收新消息，而且数据看起来不错。然而，当我使用 b...

apache-spark pyspark apache-kafka apache-kafka-connect

回答 1 投票 0

apache-spark 相关问题

最新问题