Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
我知道有很多'如何调整你的Spark工作'等博客文章和帖子,但不幸的是我的目标是在pyspark(k-means)中使用内置的集群模块,所以建议......
如何将所有列为字符串的DataFrame转换为具有特定架构的DataFrame
想象一下以下输入:val data = Seq((“1 :: Alice”),(“2 :: Bob”))val dfInput = data.toDF(“input”)val dfTwoColTypeString = dfInput.map(row => row .getString(0).split(“::”))。map {case Array(id,...
给定一个火花数据帧,有一个重复的列名称(例如A),我无法修改上游或源,我如何选择,删除或重命名其中一列,以便我可以检索...
我正在阅读一个获得描述的时间长于256个字符的来源。我想把它们写到Redshift。根据:https://github.com/databricks/spark-redshift#configuring-the-maximum-size-of-string -...
SyntaxError:使用ArrayType创建DataFrame时语法无效
我想从pyspark.sql创建PySpark DataFrame导入SparkSession来自pyspark.sql.types import * from pyspark.sql import Row spark = SparkSession \ .builder \ .appName(“Test”)\ ....
我是sql的新手。我有一个表数据,如区城市州人口d1 c1 s1 2000 d2 c1 s1 10000 d3 c1 s1 400000 d1 ...
我想从2个数据帧中创建一个json(一个是Parent,另一个是child)。子记录应该是一个数组,形成一个嵌套的JSON Df1(部门):+ ---------- + ------------ + | dept_Id ......
在dataframe的selectExpr中使用包含表达式的字符串变量
我在尝试在数据帧的selectExpr中使用包含my表达式的变量时遇到问题。所以我的变量为:expression ='“substr(value,1,1)as qffffffffbf3ef0cf”,“substr(value,...
在pysparkSQL中,我有一个名为bmd2的DataFrame,如下所示:DataFrame [genres:string,id:int,tagline:string,title:string,vote_average:double,vote_count:int]数据bmd2 ['genres']去... 。
我有一个样本数据如下:UserId,ProductId,Category,Action 1,111,Electronics,Browse 2,112,Fashion,Click 3,113,Kids,AddtoCart 4,114,Food,Purchase 5,115,Books,Logout 6,114,Food,Click 7,113,Kids,。 ..
如何在加入后更新Spark Scala中的dataframe列?
将两个数据帧连接成近60列。他们中的大多数人都认为保持不变,但有些人需要根据其他列中的值进行更新。有没有办法更新这些列没有...
我有一系列地图。每个映射都包含列名作为键,列值作为值。所以一张地图描述了一行。我不知道地图中会有多少条目。所以我无法创造......
不支持的子查询表达式''Fashion'':SubQuery表达式仅指外部查询表达式
我正在使用以下查询:从customer_data中选择UserId,Category(在('Fashion','Electronics')中的类别)和('Click','AddToCart','Purchase')中的操作)和customer_data.UserId不在(...
当我使用带有spark / scala的window.partitionBy()函数时,如何保持partition'number不变?
我有一个RDD,当我使用窗口时,结果的RDD'分区变为200,我使用窗口时是否可以不更改分区?这是我的代码:val rdd = sc.parallelize(List(1,3,2,4,5,6,7,8),4)val ...
我是新来的火花(使用pyspark)。我尝试从这里运行决策树教程(链接)。我执行代码:从pyspark.ml导入管道来自pyspark.ml.classification导入...
我有表名“data”,它有5列,每列包含一些空值。我想计算每列的空值我怎样才能为该结果编写代码!它易于采取...
例如,我想将像1,2,3,4,5这样的列表创建为一个火花数据帧,其中包含一列和五行,我该怎么办呢?好吧我实际上想做一个这样的任务:我有一个火花数据帧...
我希望将这个基本的SQL查询转换为Spark select Grade,count(*)* 100.0 / sum(count(*))over()来自StudentGrades组,我已经尝试过使用像这样的spark中的窗口函数...
Spark 2:当调用SparkSession enableHiveSupport()时它是如何工作的
我的问题很简单,但通过阅读文档我无法找到明确的答案。我在CDH 5.10集群上运行Spark2。还有Hive和Metastore。我创造了......
我有一个特定的要求,通过使用Spark SQL在嵌套的json中转换一些相关的表数据。我用Scala实现了它,但没有在Spark SQL中解决它。 {“......