apache-spark-standalone 相关问题


Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时,我看到以下内容


Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别?每种方法的用例是什么?


如何在 Apache Spark scala 中读取 PDF 文件和 xml 文件?

我读取文本文件的示例代码是 val text = sc.hadoopFile(路径, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions) var rddwithPath = text.asInstan...


Snowpark DataFrame:为什么同一个类方法有这么多同义词?

我怀疑这一定是为了向后兼容。我只是想找出背后的原因。 Snowpark DataFrame API 的灵感来自 Apache Spark DataFrame API。 但为什么...


kedro ipython,如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。 首先,我按照此处所述配置了 Spark 会话。 然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...


在 Spark 的作业之间移动执行器的开销?

我正在阅读一篇有关 Spark 作业调度的论文,我对他们对 Spark 的概述感到困惑: Spark作业由一个DAG组成,其节点是作业的执行阶段。每个阶段代表...


将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件,所以我首先将excel文件读入pandas数据帧,然后尝试将pandas数据帧转换为spark数据帧,但我得到了...


写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题(假设数据类型不正确)。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时,它失败了......


为什么在Windows环境下Apache IoTDB中运行`pip install`后出现`failed to build thrift`错误?

pip install apache-iotdb工具不支持Windows环境吗?在Windows中运行pip install apache-iotdb==0.13.0.post1后,出现错误消息:Failed to build thrift, ERROR: Could ...


如何在intellij中设置和运行scala-spark?

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时,出现以下错误: 线程“main”java.lang 中出现异常。


Glue Dynamic Frame 比普通 Spark 慢得多

在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...


将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中,以便在写出文件时使用。 (注意:不是当前工作目录,也不是


无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&


Apache Tiles 3.x 不再在 Spring 6.x 中编译,因为 javax.* 重命名为 jakarta。*

我的应用程序使用Spring 5.x,Apache Tiles 3.0.x。现在我想迁移到 Spring 6.x,但问题出在 Apache Tiles 3.0.x 上,因为它有 javax.servlet.* 而不是 jakarta.* 。所有春天...


通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群(新的或旧的)设置集群日志传送。 我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...


apache-cassandra-4.0.7 Dockerfile 不可用异常

尝试从 apache-cassandra-4.0.7-bin.tar.gz 创建 docker 映像,但在配置密钥空间后出现以下错误 $ docker exec -it pidcss /bin/bash $ ./cqlsh localhost -u cassandra -p cas...


如何合并从 Apache FOP 创建的 2 个 AFP

如何将使用 apache FOP 创建的大量单独的 AFP 文件合并到单个 AFP 文件中? 也欢迎任何工具建议。


为什么 Apache IoTDB 1.3 版本中的某些语句只能使用 `;` 标记执行?

当我在Apache IoTDB的Cli工具中执行语句时,为什么有些语句可以在添加之前执行;有的不用加;?就可以执行我刚刚下载了 Apache IoTD 1.3 版本...


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null,而它应该返回 'a...


在 Apache Commons CLI 中解析未知选项

有没有办法解析 Apache Commons CLI 中选项对象中不存在的未知选项。 例如 - 我的参数是 --greeting hello --unknownArgument foo。 选项对象有


如何成功启动apache airflow db

我一直在尝试使用pip安装命令在我的机器上安装apache airflow。我在虚拟环境中成功安装了airflow。当我尝试运行“airf...


apache beam 和 Big Query TableSchema 中的序列化问题

并感谢您的支持。 我目前正在尝试使用 Apache Beam,以尽可能多地了解它的工作原理。我面临 com.google.api.serv 序列化的问题...


在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目,我需要在两个不同的集群上运行作业,两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡


php 进度条与输出缓冲区

我在 Apache 上使用 php 8.0 fpm 和 proxy_fcgi。 服务器版本:Apache/2.4.58(Ubuntu) 我有一个 PHP 脚本,需要大约 20 秒才能执行... 我想要一个进度条显示


Windows 上的 httpd.conf:找不到 API 模型结构 `php8_module`

我正在尝试按照这些指南在 Windows 上安装 PHP、Apache 和 MySQL。有时,系统会提示我编辑 httpd.conf 以指向我的 PHP 安装。 apache 目录和...


Java Apache 在“Content-Disposition:”中设置附加参数

我正在使用 java Apache 5.3.1,我正在尝试使用 XML 发送多部分,并且需要以下“Content-Disposition:”集 - 内容处置:表单数据;名称=“xml”;文件名=...


有什么理由使用 Apache HashCodeBuilder 而不是 Objects.hash 吗?

我正在重写对象的 hashCode 和 equals 方法。我正在使用 Apache Commons 库中的 EqualsBuilder 来覆盖 equals。由于我使用的是 Java 7,所以我打算使用 bui...


debconf:延迟软件包配置,因为未安装 apt-utils

我正在设置 Docker 来运行我的 CakePHP 应用程序,我的 Dockerfile 就像 来自 php:7.2-apache # 启用 Apache Rewrite + Expires 模块 RUN a2enmod 重写过期 # 安装依赖项 跑...


使用 CLI 导入 Apache Superset 问题

我正在使用 docker image 运行 apache superset 实例,UI 工作正常,我已成功创建数据源和仪表板,然后将其导出为 zip 文件。 我的问题是每当我尝试...


Spark:来自数组列的新数据框列

我有这个数据框: +---------+ | 数据| +---------+ |[a、b、c]| |[d, e, f]| |[g,h,i]| +---------+ 以及列名称列表 [“第一列”,“第二列”,“第三列...


如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。 默认情况下,当您使用


在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框,其中有一列,如下所示: +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...


关于 mod_wsgi ModuleNotFoundError (dateutil) // python 3.11.4 64bit 和 apache 2.4.58 win64 VS17

我在Windows 11 Pro上使用mod_wsgi与python 3.11.4 64位和apache 2.4.58 win64 VS17。 我为每个人安装 python,而不仅仅是为我自己。 另外我不使用python virtualenv。 当我跑步时


apache 直通问题(尝试“重定向”而不重定向)

我正在使用 Apache 服务器。 我想在访问 site.com/{URI} 时显示 site.com/site/{URI} 的内容,但我不想要任何重定向。我也无权访问配置文件,只能访问 .hta...


为什么 Apache IoTDB 1.3 版本中 DataNode 配置消失并报“无法拉取系统配置”警告?

我想启动独立的 Apache IoTDB 1.3 版本。集群管理已经启动,jps可以查看DataNode和ConfigNode,但是1分钟后DataNode就消失了。那个...


什么数据类型可以将空值写入 Apache IoTDB 1.0 版本?

我需要将一些空值写入 Apache IoTDB 版本 1.0。我想知道这个版本支持写入空值吗?或者什么数据类型可以支持这种写入空值的执行...


如何使用 Apache 和 Daphne 部署 django 通道?

我正在尝试部署这个使用通道的 django 应用程序。我使用 Apache 进行常规 HTTP 请求,并希望将 Web 套接字请求转发到 Daphne。 以下是我的一些重要文件: 阿帕奇...


如何在 Windows 上为不同的虚拟主机配置不同 php 版本的 Apache 配置

我正在 Apache 2.4 / Windows 10 的 httpd.config 中测试不同的语法,以便为不同的虚拟主机提供不同的 php 版本。 Domain1 应具有 PHP 8.1,Domain2 应使用 PHP 运行...


如何在 Apache poi 数据透视表中的列和值中使用相同的列

我正在尝试使用 Apache poi 创建数据透视表,除一种情况外一切正常。当我尝试在列和值(聚合器)中使用相同的列时,它不起作用。 例如...


从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute


Spark:坚持没有按预期工作

我使用了 PySpark DataFrame,在其中调用了 UDF 函数。此 UDF 函数进行 API 调用并将响应存储回 DataFrame。我的目标是存储 DataFrame 并在...中重用它


pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("


NG8001:“app-welcome”不是已知元素:

我的 Angular 应用程序遇到问题,收到错误 8001。我不知道如何处理它。谁能帮我这个?谢谢你! 应用程序组件.html {{标题}}&l... 我的 Angular 应用程序遇到问题,收到错误 8001。我不知道如何处理它。谁能帮我这个?谢谢! app.component.html <h1>{{ title }}</h1> <p>Congratulations! Your app is running. 🎉</p> <app-welcome></app-welcome> app.component.ts import { Component } from '@angular/core'; import { CommonModule } from '@angular/common'; import { RouterOutlet } from '@angular/router'; @Component({ selector: 'app-root', standalone: true, imports: [CommonModule, RouterOutlet], templateUrl: './app.component.html', styleUrl: './app.component.css' }) export class AppComponent { title = 'XYZCARS'; } welcome.component.ts import { Component } from '@angular/core'; @Component({ selector: 'app-welcome', templateUrl: './welcome.component.html', styleUrl: './welcome.component.css' }) export class WelcomeComponent { car = 'toyota'; } 我的项目最初没有 app.module.ts 文件。我自己添加了它并根据网上找到的一些信息进行了配置,但问题仍然存在并且仍未解决。谁能帮我解决这个问题吗? app.module.ts import { NgModule } from '@angular/core'; import { BrowserModule } from '@angular/platform-browser'; import { WelcomeComponent } from './welcome/welcome.component'; import { AppComponent } from './app.component'; @NgModule({ declarations: [ AppComponent, WelcomeComponent ], imports: [ BrowserModule ], providers: [], bootstrap: [AppComponent] }) export class AppModule { } 如果您正在 Angular 17 中创建项目->使用这些命令 ng app --no-standalone 然后你就得到了 app.module.ts 文件。


Databricks Spark:java.lang.OutOfMemoryError:GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业,它以 15 分钟的间隔执行,因此在成功执行三到四次之后...


如何设置分片`region`以避免在Apache IoTDB中报告`AsyncIoTConsensusServiceClient 113`类型错误?

Apache IoTDB 的分片区域是基于时间分片的吗?如何减少该区域的数量?我认为这个数量太多了,所以我报告了这个错误,但是如果我设置这个数量...


当Apache IoTDB中导出TsFile数据的sql语句较多时,为什么执行的结果却较少?

我想问一下,当在Apache IoTDB中使用TsFile导出工具时,我的sql文件中有40条sql语句,但只导出了3个TsFile。这是什么原因呢?导出工具有没有...


如何使用诗歌从 test.pypi.org 安装软件包?

我想在我的项目中使用包的预发布版本(https://test.pypi.org/project/delta-spark/2.1.0rc1/)。 我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢? 换句话说...


我在安装 pyspark 时遇到错误,如何修复它?

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中,出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。 至


JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。 数据集 df = Spark.read().


© www.soinside.com 2019 - 2024. All rights reserved.