apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

我有一个数据帧如下：val df = Seq（（“x”，“y”，1），（“x”，“z”，2），（“x”，“a”，4），（“ x“，”a“，5），（”t“，”y“，1），（”t“，”y2“，6），（”t“，”y3“，3），（”t“ ，“y4”，5））。toDF（“F1”，“F2”，“F3”）+ --- + --- + - ...

scala apache-spark

回答 2 投票 -1

将Spark Dataframe转换为Scala Map集合

我正在尝试找到将整个Spark数据帧转换为scala Map集合的最佳解决方案。最好说明如下：从这里开始（在Spark示例中）：val df = sqlContext ....

apache-spark dataframe apache-spark-sql

回答 2 投票 8

SparkSQL在第一次爆炸后第二次爆炸

我在第一次爆炸后使用以下命令进行第二次爆炸：myExplode = sqlContext.sql（“从myTable中选择爆炸（名称）作为name_x”）myExplode = sqlContext.sql（“select explode（...

apache-spark dataframe apache-spark-sql pyspark-sql

回答 1 投票 0

如何在spark sql lag函数中添加if或case条件

需要在spark sql lag函数中添加一些条件，我的数据中有ID和日期，我想得到最近的非滞后日期。 id，日期er1,2018-01-19 er1，null er1,2018-02-10 er2，...

sql apache-spark

回答 1 投票 0

如何将嵌套的Struct列展开为多列？

我正在尝试将具有嵌套结构类型（见下文）的DataFrame列扩展为多个列。我正在使用的Struct模式看起来像{“foo”：3，“bar”：{“baz”：2}}。理想情况下，我......

python apache-spark dataframe pyspark apache-spark-sql

回答 2 投票 2

Scala / Spark：如何将此参数传递给.select语句

我有办法得到一个有效的数据框的子集：这工作val subset_cols = {joinCols：+ col} val df1_subset = df1.select（subset_cols.head，subset_cols.tail：_ *）这不起作用:(。 ..

scala apache-spark

回答 1 投票 -3

在读取/加载时将原始JSON保留为Spark DataFrame中的列？

在将数据读入Spark DataFrame时，我一直在寻找一种将原始（JSON）数据添加为列的方法。我有一种方法可以通过连接执行此操作，但我希望有一种方法可以在...中执行此操作

json apache-spark apache-spark-sql

回答 2 投票 3

是否有通用的方法来读取spark中的多线json。更具体的是火花？

我有一个多行json像这样{“_ id”：{“$ oid”：“50b59cd75bed76f46522c34e”}，“student_id”：0，“class_id”：2，“得分”：[{“type”：“考试”， “得分”：57.92947112575566}，{“type”：“...

python json apache-spark pyspark

回答 1 投票 0

Spark Job在第一次尝试时无法连接到oracle

我们正在运行连接到oracle并获取一些数据的spark工作。始终尝试0或1的JDBCRDD任务失败，并出现以下错误。在随后的尝试任务中完成。正如少数人所建议的......

apache-spark apache-spark-2.0

回答 3 投票 0

PySpark列表中的项目

以下是我正在尝试实现的操作：types = [“200”，“300”] def Count（ID）：cnd = F.when（（** F.col（“type”）类型**），1）.otherwise（F.lit（0））返回F.sum（cnd）.alias（“CountTypes”）...

apache-spark pyspark pyspark-sql

回答 1 投票 1

如何在R中使用sparklyr打开“GZ FILE”？

我想使用sparklyr包打开gz文件，因为我在R上使用Spark。我知道我可以使用read.delim2（gzfile（“filename.csv.gz”），sep =“，”，header = FALSE ）打开gz文件，我可以用...

r apache-spark rstudio sparklyr gz

回答 1 投票 1

Spark运行日志中两个DAG调度程序时间有什么区别？

我运行一个火花工作，它记录了该过程的进展情况。最后，它给出了两种类型的时间，指的是完成时间。这两种类型有什么区别。这读了......

apache-spark directed-acyclic-graphs

回答 1 投票 1

在Spark Dataframe中的列列表中添加一列rowums

我有一个包含多个列的Spark数据帧。我想在数据帧上添加一列，它是一定数量的列的总和。例如，我的数据如下所示：ID var1 var2 var3 ...

scala apache-spark dataframe apache-spark-sql

回答 4 投票 16

Spark发现匹配字符串的出现次数

我如何能够找到匹配字符串的出现，如下面的代码片段，我能够将过滤后的字符串作为输出，但不是出现导入org.apache.spark._ import org ....

apache-spark

回答 1 投票 -3

如何从Spark数据帧中的When子句向udf发送多个列？

我想在full_outer_join的基础上加入两个数据帧，并尝试在连接的结果集中添加一个新列，它告诉我匹配的记录，单独的左数据框中的不匹配记录和...

scala apache-spark null apache-spark-sql user-defined-functions

回答 1 投票 1

PySpark中pandas_udf的隐式模式？

这个答案很好地解释了如何使用pyspark的groupby和pandas_udf来进行自定义聚合。但是，我不可能手动声明我的架构，如示例的这一部分所示......

python apache-spark pyspark user-defined-functions

回答 2 投票 2

如何在spark shell中注册Java SPark UDF？

下面是我的java udf代码，包com.udf; import org.apache.spark.sql.api.java.UDF1;公共类SparkUDF实现UDF1 {@Override public String call（String arg）...

java scala apache-spark user-defined-functions

回答 1 投票 0

以有状态的方式处理火花中的网络数据包

我想使用Spark来解析网络消息，并以有状态的方式将它们分组为逻辑实体。问题描述假设每条消息都在输入数据帧的一行中，......

apache-spark apache-spark-sql spark-structured-streaming

回答 2 投票 1

在pyspark如何广播和巨大的rdd？

当我打印出我的rdd的第一个元素如下：print（“input = {}”。format（input.take（1）[0]））我得到一个结果：（u'motor'，[0.001， ...，0.9]）[0.001，...，0.9]的类型是一个列表。 ...

apache-spark pyspark

回答 1 投票 0

pyspark读取csv文件multiLine选项不适用于具有换行符spark2.3和spark2.2的记录

我正在尝试使用pyspark csv reader读取dat文件，它包含换行符（“\ n”）作为数据的一部分。 Spark无法将此文件作为单列读取，而是将其视为新的...

python-3.x apache-spark pyspark spark-dataframe

回答 1 投票 1

apache-spark 相关问题

最新问题