apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

我正在尝试在 EMR 集群中提交 pyspark 作业。作业的代码位于放置在 S3 中的压缩包中： /bin/spark-提交 \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline....

amazon-web-services apache-spark amazon-s3 pyspark amazon-emr

回答 1 投票 0

在 PySpark 中创建当前余额列

我在 PySpark 代码中创建了以下数据框： +----------------+------------+----------------+--- ---+ |交易日期|账号|交易类型|金额| +----------------+------------+----...

dataframe apache-spark pyspark aggregate apache-synapse

回答 1 投票 0

Databricks - pyspark.pandas.Dataframe.to_excel 无法识别 abfss 协议

我想使用 Python 中的 Azure Databricks 将 Dataframe (pyspark.pandas.Dataframe) 作为 Excel 文件保存在 Azure Data Lake Gen2 上。我已经切换到 pyspark.pandas.Dataframe 因为它是

python pandas azure apache-spark azure-databricks

回答 3 投票 0

在PySpark中尽可能多地发现匹配的id

我有一个 Spark DataFrame，比如编号1 编号2 分数 A1 B1 9 A2 B1 9 A2 B2 7 A3 B2 5 我想在 PySpark 中找到最匹配的 id1/id2 ，输出是编号1 编号2 A1 B1 A2 B2 挑战在于 Row(A2,...

dataframe apache-spark pyspark

回答 3 投票 0

如何高效地从 BigQuery 读取到 Spark？ [已关闭]

当使用BigQuery Connector从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到 Spark 中，但是当读取大表时，它......

apache-spark google-bigquery google-cloud-dataproc google-hadoop

回答 3 投票 0

为 Jupyter 创建 pyspark 内核

我正在考虑将 Apache Toree 用作 Jupyter 的 Pyspark 内核 https://github.com/apache/incubator-toree 然而它使用旧版本的 Spark（1.5.1 与当前的 1.6.0）。我尝试使用...

apache-spark ipython pyspark jupyter

回答 2 投票 0

如何在 pyspark 中按字母顺序对嵌套结构的列进行排序？

我有以下架构的数据。我希望所有列都应按字母顺序排序。我想要它在 pyspark 数据框中。根 |-- _id：字符串（可空 = true） |-- 名字：字符串（可空 =

python apache-spark struct pyspark

回答 3 投票 0

无法将 Spanner 表中的数据读取到 Dataproc 集群上运行的 Spark 作业中

我正在进行集成，其中我试图将数据从简单的 gcp spanner 表读取到在 dataproc 集群上运行的 Spark 作业中。对于此集成，我使用 google-cloud-spanner-j...

apache-spark google-cloud-platform google-cloud-dataproc google-cloud-spanner spark3

回答 1 投票 0

Pyspark 将双引号写入 csv 文件的选项无法正常工作

我正在尝试写入 csv 文件，其中我希望字段用双引号 | | 分隔。作为无法正常工作的分隔符。问题是我的 exa 几乎没有双引号值...

dataframe scala csv apache-spark

回答 1 投票 0

PySpark 示例通过使用多列

我想对PySpark上的数据框进行分层采样。有一个sampleBy(col,fractions,seed=None)函数，但它似乎只使用一列作为层。有什么办法可以...

python apache-spark pyspark

回答 2 投票 0

如何使用文本文件作为模板和数据框创建多个文件

大家好，今天我有一个挑战：我需要使用文本文件作为模板创建多个将成为 python 函数的文件，我的模板将包含类似以下内容的内容：我的模板.txt #文本为

python-3.x dataframe apache-spark pyspark

回答 1 投票 0

从 rdd 创建数据集时，spark 是否使用已定义的分区

鉴于以下按人的年龄分区的 rdd，我创建一个数据集，我想为其输出也按年龄分区的镶木地板： val rdd = Spark.sparkContext.parallelize( 序列（...

apache-spark

回答 1 投票 0

发现 PySpark 中最匹配的 id

dataframe apache-spark pyspark

回答 1 投票 0

Spark 作业因 java.io.NotSerializedException: org.apache.spark.SparkContext 而失败

当我尝试在 RDD[(Int,ArrayBuffer[(Int,Double)])] 输入上应用方法（ComputeDwt）时，我面临上述异常。我什至使用 extends Serialization 选项来序列化 Spark 中的对象....

java scala hadoop apache-spark

回答 2 投票 0

如何向 DataFrame 添加新的 Struct 列

我目前正在尝试从 MongoDB 中提取数据库，并使用 Spark 将 geo_points 摄取到 ElasticSearch 中。 Mongo 数据库有纬度和经度值，但 ElasticSearch 需要...

scala elasticsearch apache-spark etl apache-spark-sql

回答 3 投票 0

按_doc排序文档时结果不一致

我想使用sort+search_after分页机制获取elasticsearch命中。 Elasticsearch 文档指出： _doc 除了是最有效的排序顺序之外没有真正的用例。所以我...

apache-spark elasticsearch pagination

回答 1 投票 0

如何从 Dataframe 的映射访问 Wrappedarray

我有一个像这样的数据框： +------+-------------------------------------------------------- ------------------------------------------------+ |我的钥匙|我的地图...

scala apache-spark apache-spark-sql user-defined-functions

回答 1 投票 0

spark drop 重复项中的序列化错误

我在 Spark 中使用 dropDuplicates 函数时遇到序列化问题。这是我正在使用的代码：覆盖 def innerTransform(dataFrames: Map[ReaderKey, DataFrame]): DataFrame = { ...

scala apache-spark spark-structured-streaming

回答 1 投票 0

PySpark：名称大写的新列意外删除

我正在尝试使用 pyspark.sql.functions.when 和之后基于条件逻辑在我的 PySpark DataFrame 中添加一个新列 CHANNEL_ID，删除不再是的旧列 Channel_id

python dataframe apache-spark pyspark

回答 1 投票 0

如何在给定日期模式的情况下验证日期列而不引发异常或修改 Apache Spark 3.0 中的 Spark Config？（Java）

我在数据集 dataset 中有一个列 C1，我想对其进行过滤，以便只能获取满足日期模式“dd-MM-yyyy”的行，例如：数据集 newDs = 数据集。

java apache-spark date validation

回答 1 投票 0

apache-spark 相关问题

最新问题