apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何在pyspark列表达式中引用名称中带有连字符的列?

我有一个形状像这样的json文档(请注意,这个模式不在我的控制之下 - 我不能去除密钥中的连字符):{“col1”:“value1”,“dictionary-a”: {“col2”:“value2”......

回答 1 投票 2

使用Apache Spark将RDD写为文本文件

我正在探索Spark进行批处理。我使用独立模式在本地计算机上运行spark。我试图使用saveTextFile()将Spark RDD转换为单个文件[最终输出] ...

回答 5 投票 8

比较两个数据帧中列的值

我有两个数据帧,一个具有唯一的id值,另一个可以具有不同id的多个值。这是数据帧df1:id | DT |速度| stats 358899055773504 2018-07-31 18:38:34 0 [9,-1,-1,13,0,...

回答 1 投票 1

过滤表列并路由到不同的表(如果它为null)

我对SQL知之甚少,但我仍然想问这个论坛。我的工作是处理具有空值的记录。我的意思是我们有自然键(假设有4列),如果有任何列得到...

回答 1 投票 0

Spark:返回每个数据集行的所有正则表达式匹配项

我有一个从.csv文件加载的数据集(由ds在这里模仿),其中包含2行:一行包含文章的发布日期(publishDate),另一行包含提及的名称及其字符偏移...

回答 1 投票 0

这是更快的spark.sql或df.filter(“”)。select(“”)。使用scala

我有一个表是一个df,它也有一个用table.createOrReplaceTempView(“table”)创建的视图,查询是spark.sql(“SELECT column1 from TABLE where column2 ='VALUE'”)我想......

回答 3 投票 2

使用Spark Catalyst逻辑计划修改查询

是否可以使用扩展点在DataFrame API / SQL中添加/替换现有列表达式。例如:假设我们注入了可以从计划中检查项目节点的解决规则......

回答 1 投票 0

Tableau + Spark SQL Connector + Java Spark数据框

我需要使用Tableau对某些数据执行BI分析。数据存储在Cassandra数据库中,里面有一个包含动态JSON数据的列,Tableau无法直接对其进行解析。 ...

回答 1 投票 1

将Spark DataFrame转换为HashMaps的HashMap

我的数据框如下所示:column1_ID column2 column3 column4 A_123 12 A 1 A_123 12 B 2 A_123 23 A 1 B_456 56 DB 4 B_456 ...

回答 2 投票 1

选择hive和spark的count(*)问题

运行ANALYZE语句后,我得到了正确的计数。但我的问题是,每次更新计数时都需要运行它。从技术上讲,我应该可以更新相同的计数...

回答 1 投票 0

在Spark Dataframe中将空值替换为空值

我有一个包含n列的数据框,我想用空值替换所有这些列中的空字符串。我尝试使用val ReadDf = rawDF.na.replace(“columnA”,Map(“” - > null));和......

回答 1 投票 1

在hdfs中编写小文件或使用coalesce

我使用sql spark来读取和写入hdfs中的文件,使用以下代码:val df = spark.read.parquet(“D:/ resources / input / address / year_month_day = 2018-07-02”)val df.write .mode( “覆盖”)....

回答 1 投票 2

将转换应用于多个列pyspark dataframe

假设我有以下spark数据帧:+ ----- + ------- + |字|标签| + ----- + ------- + |红|色| |红|色| |蓝色|色| |蓝色|情| |快乐|情| + ----- + ------- +哪个......

回答 1 投票 2

我们可以在spark sql中触发传统的连接查询吗?

假设我有两个表table1和table2。形成的查询如下:select * from table1 inner join table2 on table1.id = table2.id;现在当我们通过这个加载spark数据库连接...

回答 3 投票 0

Scala Spark组按值更改

我有以下数据集: - ID传感器状态DateTime 1 S1 0 2018-09-10 10:10:05 1 S1 0 2018-09-10 10:10:10 1 S1 0 2018-09-10 10:10:20 1 ...

回答 1 投票 -1

Spark DataFrame是Untyped vs DataFrame有架构吗?

我是Spark的初学者,在阅读有关Dataframe的内容时,我经常在数据框下面找到两个语句 - 1)DataFrame是无类型的2)DataFrame有架构(就像数据库表一样...

回答 1 投票 0

如何在pyspark中创建数据框的副本?

我有一个数据框,通过执行以下操作,我需要通过该数据框创建一个新的数据帧,其中模式有一点变化。 >>> X = spark.createDataFrame([[1,2],[3,4]],['a','b'])&...

回答 2 投票 5

pyspark使用模式将csv文件加载到数据帧中

我是pyspark的新手,并使用Spark版本2.2.0和Python版本2.7.12在pyspark上工作。我试图将2个.csv文件(有超过1个标题行)读入2个不同的数据帧,并且已知...

回答 2 投票 0

Spark DataFrame写入JDBC - 无法获取struct的JDBC类型 ?

我是新手,并试图将数据帧写入db2表。我得到的错误是:线程“main”中的异常java.lang.IllegalArgumentException:无法获取struct的JDBC类型

回答 1 投票 2

在mleap中提供葡萄酒分类模型

我有一个使用mleap训练和保存的葡萄酒分类模型。注意:目前我正在使用TrueCar版本的mleap。计划很快更新。现在,当我尝试启动服务器来提供服务时......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.