Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
在 Spark SQL 中编写 SQL 与使用 Dataframe API
我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码,其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC(更改数据捕获),
我尝试使用 Spark Cassandra Connector 在 Cassandra 中的数据之上进行分析,并发现了两种类型的实现。谁能阐明两者之间的区别和优点/
如何在 Spark 和 Cassandra 中将数据从较小的表映射到较大的表? (第一个表的主键是第二个表的分区键)
所以这是我的表1: 案例类别表1( key1: String //(主键), 值1:字符串 ) 表2: 案例类别表2( key1: String //(分区键) key2: String //(主键) ...
如何将pyspark daframe保存为jsonl/json文件?
为此问题设计的示例。我有一个 pyspark 数据框,为了方便起见,我对数据进行了硬编码,但我有一堆 csv 文件读入数据框。我可以将数据帧保存为 json ...
我有一个镶木地板源,其“年份”列一样长,并且我已在表中将其指定为 int 。在读取镶木地板时,我指定了表的架构来强制它,但它却给出了错误......
Spark/Pyspark 如何使用spark.conf.set 设置属性
想知道使用spark.conf.set设置某些属性的确切语法(在Pyspark中)。我见过多种方法,但不确定哪种方法是正确的。 假设我想设置spark.sql.adaptive。
从Databricks中的UDF内部查询Delta Lake
需要在结构化流中对 UDF 内的表执行一些查询。问题是,在 UDF 内部,如果我尝试使用 Spark.sql,我会收到空指针异常。最好的方法是什么
我对如何使用pyspark和cassandra连接器感到非常困惑。有些帖子说这只是使用 pyspark 中的 SparkContext 和 SparkSession 的问题,而其他帖子则说这些不起作用......
Pyspark:是否可以在不使用 python RDD 的情况下将 Java RDD 转换为 Pyspark Dataframe?
我们有一个非常复杂的 pyspark 作业,具有庞大的执行计划。以前生成计划大约需要 20-30 分钟。就计划时间而言,缓存并没有真正改善太多。 我
Spark 应用程序中出现 java.lang.NoClassDefFoundError 错误
我正在尝试使用 /usr/local/spark# ./bin/spark-submit --class "DataframeExample" --master local[2] ~/new/hbfinance-module-1.0 向 Spark 提交 JAR 文件-SNAPSHOT.jar /。我正在使用阿帕奇
我正在阅读有关 Spark 结构化流连接的信息,并遇到了静态到流数据集支持的连接类型。我有一个问题,为什么不支持它,因为据我所知...
我想在我的 Spark 集群上训练有关 10G 新闻语料库的 word2vec 模型。 以下是我的spark集群的配置: 一名师傅和四名工人 每个都有80G内存和24个核心 然而...
我在基于 HDFS 的数据湖上使用 PySpark 和 Apache Iceberg,并且遇到了严重的存储问题。我的应用程序每秒都会摄取实时数据。大约2小时后,我...
我曾经对 Spark 代码应用一些补丁来显式处理更具体的数据类型和结构。带补丁的旧 Spark 代码: 私有 def serializerFor(inputObject: 表达式, typeToken:
我正在尝试使用spark一个简单的工作计数程序,但是当我尝试初始化spark上下文时它失败了。 下面是我的代码 conf = 新的 SparkConf(true). setAppName("字数"). ...
我在 pyspark 数据框(字典)中有一个复杂的列。每行有三个键,string_value、timestamp 和 user_property。 User_property 包含其他数组中对应值的名称。
我正在尝试使用pyspark的VectorAssembler函数,但它似乎无法正常工作。 我有一个 Twitter 数据的数据框,其中每个主题标签为一行,每一天为一列
Azure Synapse Analytics,笔记本失败,并显示“本机 zStandard 库不可用:此版本的 libhadoop 是在没有 zstd 支持的情况下构建的。”
之前的 PySpark 笔记本运行没有问题。本周,它因以下错误而失败:“java.lang.RuntimeException:本机 zStandard 库不可用:此版本的 libhadoop 是
如何将spark.sql查询中引用为table的所有出现的表名替换为另一个?
例如我有一个SQL查询 SELECT id, "delta.`/example/table/path`" FROM delta.`/example/table/path` WHERE str LIKE "%delta.`/example/table/path`" 我怎样才能只更换
我正在尝试将写入Kafka主题的数据加载到Postgres表中。我可以看到该主题每秒都在接收新消息,而且数据看起来不错。 然而,当我使用 b...