Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
当我将一个DataFrame写入Parquet文件时,不会显示任何错误,也不会创建任何文件
大家好,我在保存DataFrame时遇到了问题。我发现了一个类似的未回答的问题:将Spark dataFrames保存为镶木地板文件 - 没有错误,但没有保存数据。我的问题是......
我想通过Spark从MySQL读取数据。我看到的API能够从特定表中读取数据。例如,val prop = new java.util.Properties prop.setProperty(“user”,“
我有时间戳的输入,基于某些条件我需要使用scala编程减1秒或减3个月输入:val date:String =“2017-10-31T23:59:59.000”输出:减1秒... 。
我在pyspark有一个csv文件,里面有大量的销售信息 - 单位,商店ID,总销售额,客户忠诚度,产品编号等。我需要比较那些客户的销售数量......
为spark scala中的数据框中的每个组采样不同数量的随机行
目标是为每个组在数据帧中采样(不替换)不同数量的行。要为特定组采样的行数在另一个数据帧中。示例:idDF是......
我看到一种情况,当一个pyspark数据帧保存到具有多列分区的hive表时,它也会覆盖子分区中的数据。或者 - 可能是我假设它是一个子分区。 ...
目前我有两个数据集,一个是父数据集,一个是子数据集。子数据集包含可以链接到父表的“parentId”列。子数据集保存有关某人的行为和父母的数据...
我正在使用Spark 1.6,我想在数据帧中添加一列。新列实际上是一个常量序列:Seq(“ - 0”,“ - 1”,“ - 2”,“ - 3”)这是我的原始数据帧:scala> df.printSchema()...
Pyspark UDF for Dataframe vs RDD
我的数据帧的架构是:root | - _10:string(nullable = true)| - _11:string(nullable = true)| - _12:string(nullable = true)| - _13:string(nullable =真)| --...
我刚刚从Pandas切换到PySpark数据框,发现在PySpark数据框中打印出相同的列会产生错误的值。这是一个例子:使用熊猫:df_pandas = pd.read_csv(“犯罪......
Scala如何匹配两个dfs,如果匹配,然后在第一个df更新密钥
我有两个数据帧中的数据:selectedPersonDF:ID键1 2 3 4 5 selectedDetailsDF:第一个第二个第三个键-------------------------- 1 9 9 777 9 8 8 ......
如何一起使用SparkSession和StreamingContext?
我正在尝试从本地计算机(OSX)上的文件夹中流式传输CSV文件。我像这样一起使用SparkSession和StreamingContext:val sc:SparkContext = createSparkContext(sparkContextName)val ...
我正在使用具有架构的数据帧df.printschema()root | - _id:long(nullable = true)| - d:array(nullable = true)| | - element:struct(containsNull ...
我有一个Spark数据帧,其中包含一个字段作为时间戳。我将数据帧存储到创建hive外部表的HDFS位置。 Hive表包含具有时间戳类型的字段。 ...
我有一个spark数据帧定义为:+ ---------------- + -------------------- + --- -------- + | id | amt_list | ct_tran_amt | + ---------------- + -------------------- + ----------- + | 1 ...
我正在尝试从我的JavaRDd <Book>和JavaRdd <Reviews>生成一个复杂的xml如何将这两个生成为xml以下生成?
Spark / Scala Rdd和DataFrame的groupBy函数之间的任何工作差异[重复]
我已经检查过并且有点好奇了解RDD和DataFrame的groupBy函数。是否有任何性能差异或其他?请建议。
我有一个包含JSON数组的gzip压缩文件,如下所示:[{“Product”:{“id”1,“image”:“/ img.jpg”},“Color”:“black”},{ “产品”:{“id”2,“image”:“/ img1.jpg”},“颜色”:“绿色”} .......我......
我已经使用一种方法将数据帧保存为使用镶木地板文件格式的外部表,但是还有其他方法可以将数据帧直接保存为配置单元中的外部表,就像我们有saveAsTable for managed ...
PySpark - 从Numpy Matrix创建DataFrame
我有一个numpy矩阵:arr = np.array([[2,3],[2,8],[2,3],[4,5]])我需要从arr创建一个PySpark Dataframe。我无法手动输入值,因为arr的长度/值将是......