apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

java.lang.NullPointerException：null：加载scala案例类时

我正在读取bigquery表数据并将它们加载到案例类中，并且在加载它时面临这个空指针异常 java.lang.NullPointerException: null 在 org.apache.spark.unsafe.

scala apache-spark google-bigquery

回答 1 投票 0

在 Spark 3 中似乎无法正确解析日期

我正在尝试编写一个实用程序来“评估”日期的良好格式。我似乎无法成功，因为我不断收到如下错误：发生异常：Py4JJavaError ...

python apache-spark date pyspark

回答 1 投票 0

在 Dataproc 上使用 PySpark 从不同的 GCP 项目访问 BigQuery 数据集

我正在使用 Python 在 Google Cloud 中使用 BigQuery、Dataproc、工作流和云存储。我有两个 GCP 项目： gcp-project1：包含 BigQuery 数据集 gcp-project1.my_dataset.my_tab...

python apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

尝试将架构应用于 JSON 数据时，SPARK 数据框返回 null

我正在使用 SPARK Java API 读取文本文件，将其转换为 JSON，然后对其应用架构。架构可能会根据数据库中的映射表而有所不同，这就是为什么我需要首先转换...

java json dataframe apache-spark schema

回答 3 投票 0

如何在 PySpark 中正确检查数据帧

假设我正在读取存储在 PATH 中的一个非常（非常）大的表。过滤表格并选择几列以使其与 df2 兼容后，我继续在新创建的内容上加入 df 和 df2...

apache-spark pyspark

回答 1 投票 0

计算 350 万个 ID 组合中同时出现的实体的最大数量的函数？

apache-spark pyspark parallel-processing distributed-computing

回答 1 投票 0

将 ETL 作业从 IBM Datastage 转换为 Apache Spark

我们所有的 ETL 工作负载都是在 IBM Datastage 和 Oracle 作为数据库上设计的，但现在，企业正在寻求开源平台的选择，这些平台提供

oracle apache-spark datastage

回答 2 投票 0

如何在 Scala Spark 中从 Excel（xls、xlsx）文件构造 Dataframe？

我有一个包含多个工作表的大型 Excel（xlsx 和 xls）文件，我需要将其转换为 RDD 或 Dataframe，以便稍后可以将其连接到其他数据框。我正在考虑使用 Apache POI 并保存...

excel scala apache-spark pyspark spark-excel

回答 5 投票 0

spark中select和filter的顺序有什么偏好吗？

我们有两种方法从 Spark 数据帧 df 中选择和过滤数据。第一的： df = df.filter("过滤器定义").select('col1', 'col2', 'col3') 第二： df = df.select('col...

apache-spark pyspark

回答 2 投票 0

使用 Google Data Fusion 中的 Spark 工具重命名输出文件

我在 Google Data Fusion 中有一个管道，它在 Google Cloud 存储桶的目标目录中生成一个名为“part-00000-XXXXXX”的 CSV 文件（以及一个名为“_SUCCESS”的文件）...

scala csv apache-spark file-rename google-cloud-data-fusion

回答 2 投票 0

错误SparkContext：无法添加spark-streaming-kafka-0-10_2.13-3.5.2.jar

错误 SparkContext：无法将 home/areaapache/software/spark-3.5.2-bin-hadoop3/jars/spark-streaming-kafka-0-10_2.13-3.5.2.jar 添加到 Spark 环境导入日志记录从 pyspark.sql 导入

python apache-spark pyspark spark-structured-streaming spark-kafka-integration

回答 1 投票 0

需要帮助将 Spark 历史日志存储到 s3 存储桶

我想将 Spark 历史执行日志存储在 s3 存储桶中，以便我可以对我的 Spark 应用程序进行一些分析。我的 Spark 应用程序在 EMR（emr-6.15.0）上运行并使用纱线部署。之后...

apache-spark amazon-s3 hadoop-yarn amazon-emr

回答 1 投票 0

遇到 pyspark.sql.utils.AnalysisException：UDF 类未实现任何 UDF 接口

我正在尝试利用 pyspark 中的 Scala udfs 并遇到“pyspark.sql.utils.AnalysisException：UDF 类未实现任何 UDF 接口”错误我的 scala 代码看起来像这样爸...

scala apache-spark pyspark user-defined-functions

回答 1 投票 0

Spark 会话线程安全

我读到 Spark 会话上下文是线程安全的，但并非在所有情况下都是如此。我有多线程应用程序，其组织方式如下： N - 工作人员服务事件总线并发送一些简单的 Spark 任务。 ...

scala apache-spark

回答 1 投票 0

Pyspark HASH() 能否安全地将 UUID/GUID 转换为 BIGINT 并保持 Databricks 中的唯一性？

背景我正在开发 Databricks Lakehouse 实现，并且我们正在为多个表创建一些代理键，以促进标准化下游连接。我们的数据来自...

python database apache-spark pyspark databricks

回答 1 投票 0

由于spark.rpc.message.maxSize错误，无法通过胶水作业写入csv

我正在尝试通过 pandas 读取 xlsx 文件，转换一些列并将其转换为 Spark 数据帧，然后尝试通过 Glue 作业将其写入 CSV。使用 Spark 背后的原因是......

python amazon-web-services apache-spark pyspark

回答 1 投票 0

Spark 不支持解串器：需要一个“ARRAY”字段，但得到“MAP<STRING, STRING>”

最近我们已迁移到dataproc image 2.2版本，并支持scala 2.12.18和spark 3.5版本。封装测试导入 org.apache.spark.sql.SparkSession 导入测试.模型._ 哦...

scala apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

如何用Spark高效读取多个parquet小文件？有CombineParquetInputFormat吗？

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

apache-spark spark-streaming apache-spark-sql parquet

回答 2 投票 0

有没有办法限制MapReduce程序的节点数量？

在我的 Spark 程序中，我可以通过调整 --num-executors 参数来限制程序运行的节点数量。现在我想将我的程序的可扩展性与

java scala hadoop apache-spark bigdata

回答 1 投票 0

Spark 中ReduceByKey 和CombineByKey 的区别[已关闭]

在Spark中，ReduceByKey和CombineByKey的性能有什么区别吗？对此的任何帮助表示赞赏。

scala apache-spark

回答 1 投票 0

apache-spark 相关问题

最新问题