apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

我知道有很多'如何调整你的Spark工作'等博客文章和帖子，但不幸的是我的目标是在pyspark（k-means）中使用内置的集群模块，所以建议......

apache-spark serialization pyspark apache-spark-sql apache-spark-mllib

回答 1 投票 0

想象一下以下输入：val data = Seq（（“1 :: Alice”），（“2 :: Bob”））val dfInput = data.toDF（“input”）val dfTwoColTypeString = dfInput.map（row => row .getString（0）.split（“::”））。map {case Array（id，...

csv apache-spark apache-spark-sql

回答 4 投票 0

从spark数据框中选择或删除重复列

给定一个火花数据帧，有一个重复的列名称（例如A），我无法修改上游或源，我如何选择，删除或重命名其中一列，以便我可以检索...

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

指定字符串长度超过256的pyspark数据帧模式

我正在阅读一个获得描述的时间长于256个字符的来源。我想把它们写到Redshift。根据：https：//github.com/databricks/spark-redshift#configuring-the-maximum-size-of-string -...

apache-spark pyspark apache-spark-sql amazon-redshift

回答 1 投票 1

SyntaxError：使用ArrayType创建DataFrame时语法无效

我想从pyspark.sql创建PySpark DataFrame导入SparkSession来自pyspark.sql.types import * from pyspark.sql import Row spark = SparkSession \ .builder \ .appName（“Test”）\ ....

python python-3.x pyspark apache-spark-sql

回答 1 投票 -2

选择人口超过410000的城市数量

我是sql的新手。我有一个表数据，如区城市州人口d1 c1 s1 2000 d2 c1 s1 10000 d3 c1 s1 400000 d1 ...

sql apache-spark-sql

回答 1 投票 0

通过连接数据帧（父级和子级）创建JSON

我想从2个数据帧中创建一个json（一个是Parent，另一个是child）。子记录应该是一个数组，形成一个嵌套的JSON Df1（部门）：+ ---------- + ------------ + | dept_Id ......

json scala apache-spark apache-spark-sql

回答 1 投票 1

在dataframe的selectExpr中使用包含表达式的字符串变量

我在尝试在数据帧的selectExpr中使用包含my表达式的变量时遇到问题。所以我的变量为：expression ='“substr（value，1,1）as qffffffffbf3ef0cf”，“substr（value，...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 1

如何使用pysparkSQL将字符串传输到dict

在pysparkSQL中，我有一个名为bmd2的DataFrame，如下所示：DataFrame [genres：string，id：int，tagline：string，title：string，vote_average：double，vote_count：int]数据bmd2 ['genres']去... 。

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

Spark-r manupulating数据

我有一个样本数据如下：UserId，ProductId，Category，Action 1,111，Electronics，Browse 2,112，Fashion，Click 3,113，Kids，AddtoCart 4,114，Food，Purchase 5,115，Books，Logout 6,114，Food，Click 7,113，Kids，。 ..

scala apache-spark hadoop hive apache-spark-sql

回答 1 投票 1

如何在加入后更新Spark Scala中的dataframe列？

将两个数据帧连接成近60列。他们中的大多数人都认为保持不变，但有些人需要根据其他列中的值进行更新。有没有办法更新这些列没有...

scala apache-spark apache-spark-sql

回答 2 投票 0

从地图序列创建Spark数据帧

我有一系列地图。每个映射都包含列名作为键，列值作为值。所以一张地图描述了一行。我不知道地图中会有多少条目。所以我无法创造......

scala apache-spark-sql

回答 1 投票 0

不支持的子查询表达式''Fashion''：SubQuery表达式仅指外部查询表达式

我正在使用以下查询：从customer_data中选择UserId，Category（在（'Fashion'，'Electronics'）中的类别）和（'Click'，'AddToCart'，'Purchase'）中的操作）和customer_data.UserId不在（...