apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

如何在pyspark列表达式中引用名称中带有连字符的列？

我有一个形状像这样的json文档（请注意，这个模式不在我的控制之下 - 我不能去除密钥中的连字符）：{“col1”：“value1”，“dictionary-a”： {“col2”：“value2”......

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 2

使用Apache Spark将RDD写为文本文件

我正在探索Spark进行批处理。我使用独立模式在本地计算机上运行spark。我试图使用saveTextFile（）将Spark RDD转换为单个文件[最终输出] ...

java apache-spark apache-spark-sql

回答 5 投票 8

比较两个数据帧中列的值

我有两个数据帧，一个具有唯一的id值，另一个可以具有不同id的多个值。这是数据帧df1：id | DT |速度| stats 358899055773504 2018-07-31 18:38:34 0 [9，-1，-1,13,0，...

scala apache-spark apache-spark-sql compare

回答 1 投票 1

过滤表列并路由到不同的表（如果它为null）

我对SQL知之甚少，但我仍然想问这个论坛。我的工作是处理具有空值的记录。我的意思是我们有自然键（假设有4列），如果有任何列得到...

sql apache-spark-sql

回答 1 投票 0

Spark：返回每个数据集行的所有正则表达式匹配项

我有一个从.csv文件加载的数据集（由ds在这里模仿），其中包含2行：一行包含文章的发布日期（publishDate），另一行包含提及的名称及其字符偏移...

regex scala apache-spark apache-spark-sql

回答 1 投票 0

这是更快的spark.sql或df.filter（“”）。select（“”）。使用scala

我有一个表是一个df，它也有一个用table.createOrReplaceTempView（“table”）创建的视图，查询是spark.sql（“SELECT column1 from TABLE where column2 ='VALUE'”）我想......

scala apache-spark apache-spark-sql

回答 3 投票 2

使用Spark Catalyst逻辑计划修改查询

是否可以使用扩展点在DataFrame API / SQL中添加/替换现有列表达式。例如：假设我们注入了可以从计划中检查项目节点的解决规则......

apache-spark apache-spark-sql

回答 1 投票 0

Tableau + Spark SQL Connector + Java Spark数据框

我需要使用Tableau对某些数据执行BI分析。数据存储在Cassandra数据库中，里面有一个包含动态JSON数据的列，Tableau无法直接对其进行解析。 ...

java apache-spark hive apache-spark-sql tableau

回答 1 投票 1

将Spark DataFrame转换为HashMaps的HashMap

我的数据框如下所示：column1_ID column2 column3 column4 A_123 12 A 1 A_123 12 B 2 A_123 23 A 1 B_456 56 DB 4 B_456 ...

scala apache-spark dataframe apache-spark-sql rdd

回答 2 投票 1

选择hive和spark的count（*）问题

运行ANALYZE语句后，我得到了正确的计数。但我的问题是，每次更新计数时都需要运行它。从技术上讲，我应该可以更新相同的计数...

apache-spark hive apache-spark-sql hiveql

回答 1 投票 0

在Spark Dataframe中将空值替换为空值

我有一个包含n列的数据框，我想用空值替换所有这些列中的空字符串。我尝试使用val ReadDf = rawDF.na.replace（“columnA”，Map（“” - > null））;和......

scala apache-spark dataframe apache-spark-sql

回答 1 投票 1

在hdfs中编写小文件或使用coalesce

我使用sql spark来读取和写入hdfs中的文件，使用以下代码：val df = spark.read.parquet（“D：/ resources / input / address / year_month_day = 2018-07-02”）val df.write .mode（ “覆盖”）....

apache-spark-sql

回答 1 投票 2

将转换应用于多个列pyspark dataframe

假设我有以下spark数据帧：+ ----- + ------- + |字|标签| + ----- + ------- + |红|色| |红|色| |蓝色|色| |蓝色|情| |快乐|情| + ----- + ------- +哪个......

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 2

我们可以在spark sql中触发传统的连接查询吗？

假设我有两个表table1和table2。形成的查询如下：select * from table1 inner join table2 on table1.id = table2.id;现在当我们通过这个加载spark数据库连接...

java apache-spark-sql

回答 3 投票 0

Scala Spark组按值更改

我有以下数据集： - ID传感器状态DateTime 1 S1 0 2018-09-10 10:10:05 1 S1 0 2018-09-10 10:10:10 1 S1 0 2018-09-10 10:10:20 1 ...

scala apache-spark apache-spark-sql scala-collections

回答 1 投票 -1

Spark DataFrame是Untyped vs DataFrame有架构吗？

我是Spark的初学者，在阅读有关Dataframe的内容时，我经常在数据框下面找到两个语句 - 1）DataFrame是无类型的2）DataFrame有架构（就像数据库表一样...

apache-spark apache-spark-sql bigdata

回答 1 投票 0

如何在pyspark中创建数据框的副本？

我有一个数据框，通过执行以下操作，我需要通过该数据框创建一个新的数据帧，其中模式有一点变化。 >>> X = spark.createDataFrame（[[1,2]，[3,4]]，['a'，'b']）＆...

python apache-spark pyspark apache-spark-sql

回答 2 投票 5

pyspark使用模式将csv文件加载到数据帧中

我是pyspark的新手，并使用Spark版本2.2.0和Python版本2.7.12在pyspark上工作。我试图将2个.csv文件（有超过1个标题行）读入2个不同的数据帧，并且已知...

pyspark apache-spark-sql

回答 2 投票 0

Spark DataFrame写入JDBC - 无法获取struct的JDBC类型？

我是新手，并试图将数据帧写入db2表。我得到的错误是：线程“main”中的异常java.lang.IllegalArgumentException：无法获取struct的JDBC类型

java apache-spark exception jdbc apache-spark-sql

回答 1 投票 2

在mleap中提供葡萄酒分类模型

我有一个使用mleap训练和保存的葡萄酒分类模型。注意：目前我正在使用TrueCar版本的mleap。计划很快更新。现在，当我尝试启动服务器来提供服务时......

apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml mleap

回答 1 投票 1

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.