apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

将Pandas数据帧转换为Spark数据帧错误

我正在尝试将Pandas DF转换为Spark。 DF头：10000001,1,0,1,12：35，OK，10002,1,0,9，f，NA，24,24,0,3,9,0,0,1,1,0,0 ，4,543 10000001,2,0,1,12：36，OK，10002,1,0,9，f，NA，24,24,0,3,9,2,1,1,3,1,3， 2,611 ......

python pandas apache-spark spark-dataframe

回答 4 投票 20

Spark：相当于数据帧中的zipwithindex

假设我有以下数据帧：dummy_data = [（'a'，1），（'b'，25），（'c'，3），（'d'，8），（'e'，1） ] df = sc.parallelize（dummy_data）.toDF（['letter'，'number']）我想创建以下内容......

python apache-spark pyspark spark-dataframe

回答 1 投票 5

Hadoop组件是否有兼容性矩阵？

我想知道生态系统的各种Hadoop组件是否有兼容性矩阵？每次Hadoop升级都会产生很大的兼容性影响，例如：Apache Spark 2.4不支持Hadoop v3，......

apache-spark hadoop

回答 1 投票 3

Kafka主题的JSON中没有发生结构化流 - 流连接

应用程序监听2 kafka主题userevent paymentevent Payload for userevent {“userId”：“Id_223”，“firstname”：“fname_223”，“lastname”：“lname_223”，“phonenumber”：“P98202384_223”，“usertimestamp”：“.. 。

java apache-spark apache-kafka spark-streaming spark-structured-streaming

回答 1 投票 0

在dataframe列值/字符串中搜索和计算单词出现次数

我正在使用我的Spark / Scala数据应用程序中的数据框，其中数据框中的一列具有巨大的字符串值，有或没有空格（两种情况都是可能的），以及......

sql scala apache-spark dataframe

回答 1 投票 0

如何将key，value作为spark sql中map的单独列

我有桌子和地图。我想从该地图中制作2个单独的列 - 1.键列2.值列。 input.show（）; + --------------------- + -------------------- + ------ -------- + -------------...

sql scala apache-spark apache-spark-sql

回答 1 投票 -3

Spark多个动态聚合函数，countDistinct不起作用

使用多个动态聚合操作在Spark数据帧上进行聚合。我希望使用带有多个动态聚合操作的Scala对Spark数据帧进行聚合（由用户在...中传递）

scala apache-spark count apache-spark-sql distinct

回答 1 投票 1

如何在Spark Scala中以CSV格式编写不同的布局

我在数据框中有详细的记录，需要在.csv文件中写入自定义标题和预告片记录，如标题和记录类型的“记录类型（00）+日期+时间”（100）+详细计数...

scala apache-spark

回答 1 投票 -4

如何在spark结构化流媒体应用程序中优化执行程序实例的数量？

运行时YARN集群模式应用程序Spark结构化流从Kafka主题读取数据关于Kafka主题1主题，包含4个分区 - 现在。（分区数可以更改）添加2000 ...

apache-spark spark-streaming spark-structured-streaming spark-streaming-kafka

回答 1 投票 0

连续处理模式和python udf

Spark 2.4.0是否支持具有连续处理模式的Python UDF？在我的简单代码中，我正在使用kafka主题，每行进行一些简单的处理（基本上为...添加一个虚拟字段）

apache-spark spark-streaming spark-structured-streaming spark-streaming-kafka

回答 1 投票 0

Spark'Dataset的行为不正常

最近我看到了Spark的一些奇怪行为。我在我的应用程序中有一个管道，我正在操作一个大数据集 - 伪代码：val data = spark.read（...）data.join（df1，“key”）//等，...

apache-spark apache-spark-sql

回答 2 投票 7

聚合后用蜂巢表读取和写入

我们有一个蜂巢仓库，并希望使用spark来完成各种任务（主要是分类）。有时将结果写回蜂巢表。例如，我们将以下python函数写入...

python hadoop hive apache-spark

回答 3 投票 6

MongoDB Spark连接器中的withPipeline函数在哪里

我正在尝试将MongoDB中的一些数据加载到Spark中。我已经定义了一个ReadConfig来指定数据库和集合。我还想应用一个过滤器，以避免丢失所有的集合。我是 ...

mongodb scala apache-spark pipeline connector

回答 1 投票 0

使用spark-submit部署程序时的java.lang.NoSuchMethodError

我正在编写一个程序来将数据上传到某个s3a：//链接。该程序是通过mvn install编译的。在本地运行程序（如使用java -jar jarfile.jar）没有返回任何错误。但是，......

java apache-spark hadoop amazon-s3

回答 1 投票 0

从Scala中的任意数据数据获取Spark DataFrame的最简单方法是什么？

我已经在这几天打破了这个问题。感觉它应该直观简单......真的希望有人可以提供帮助！我已经构建了一个org.nd4j.linalg.api.ndarray.INDArray ...

scala apache-spark apache-spark-sql nlp nd4j

回答 1 投票 0

使用部署模式群集的Apache Spark任务中的大调度程序延迟

使用带有--master yarn --deploy-mode群集的spark-submit命令会导致更大的调度程序延迟，而不是使用--master yarn --deploy-mode client。任务表现结果截图：这......

apache-spark cluster-computing scheduler

回答 1 投票 6

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.