databricks 相关问题

有关Databricks统一分析平台的问题

Scala Thread.sleep 奇怪的行为

我正在进行 API 调用,每 30 秒我都会尝试获取响应。我用过 Await.result(Future{ Thread.sleep(millisecondstoSleep)}, Duration.Inf) 但收到回复后...

回答 1 投票 0

我正在尝试使用配置管理工具 Hydra(作为装饰器)在 Azure Databricks 环境中进行多运行实验。没用

我正在尝试在Azure Databricks环境中使用配置管理工具Hydra(客户端特定要求)。这个想法是使用配置文件进行多次运行。我在本地尝试了一些代码,它

回答 1 投票 0

SQL 连接具有匹配或最新时间的列

我已经在这个问题上苦苦挣扎了一段时间,并且有点超出了我对 SQL 的了解来解决这个问题。我将简要介绍我的数据集的外观以及我想要实现的目标。 朱...

回答 1 投票 0

将数据写入 Azure databricks 中的 Delta Lake 时出现问题(检测到不兼容的格式)

我需要将数据集读入DataFrame,然后将数据写入Delta Lake。但我有以下例外: AnalysisException:“检测到不兼容的格式。 您正在尝试写信给“d...

回答 4 投票 0

从 Synapse 触发 Databricks Delta Live 表管道

我们希望从 Azure Synapse 管道触发并运行 Databricks Delta Live Tables 管道,该管道创建几个铜牌和银牌表。 我找不到任何相关信息。 然而,我...

回答 1 投票 0

Azure Databricks SQL 下载查询结果

我对 Databricks 相当陌生。我在笔记本中有一个 SQL 查询,我想将完整结果(大约 3000 行)下载到 CSV 文件中。然而,当我运行查询时,需要半个小时才能显示...

回答 2 投票 0

如何使用 databricks 上的 init bash 脚本从私有 git 存储库安装 python 包?

我正在尝试使用我上传到 s3 存储桶的 init.sh 脚本从私人 github 存储库 pip 安装 python 包。 这是我的 init.sh 文件 #!/bin/bash TOKEN={{secrets/private-repo/githu...

回答 1 投票 0

将一行与另一个表的行进行匹配,以便能够在 Databricks 中对行进行分类

如何将“客户”表的值与“组合”表的行值进行分类? 我决定创建一个组合表来开发主行中的所有组合(客户...

回答 1 投票 0

如何读取最新版本Delta表的镶木地板文件?

我们有大约 100 GB 的大数据,存储在 200 个 parquet 文件中。因此,为了节省时间,我们并行运行 10 个作业(每个作业读取 20 个文件)。 但随着 Delta 表在...之后保留历史记录

回答 1 投票 0

Databricks 自动加载器的文件包含空白行

我正在使用 databricks 自动加载器将 csv 提取到增量表中。但是,我的 csv 文件中的表格之前有许多空白行。有没有一种简单的方法来确保跳过这些行?

回答 1 投票 0

DATABRICKS 中的 Kafka 流增加了大量数据

当我对 Databricks 中的表执行 Kafka 写入流时,传入数据不会显着增加表大小,但会导致 Blob 存储上的数据大小大幅增加...

回答 1 投票 0

从S3读取Kafka存储文件位置

我们遇到以下错误,因此我们开始从 Databricks 笔记本上的 S3 位置 (s3://my-bucket/tmp/k2/truststore.jks) 获取 kafka 密钥和证书 DbxDlTransferError:异常终止:

回答 1 投票 0

如何将ZOEDER和VORDER展位放在一张桌子上

我有一个名为 Human 的表,我想在整个表上使用 VORDER 在 Region 和 Area 上应用 Zorder 优化技术。 任何人都可以建议示例代码或解释什么是 Predator 作为 p...

回答 1 投票 0

SparkClassNotFoundException:[DATA_SOURCE_NOT_FOUND] 找不到数据源:dbc

我正在使用 DataBricks 社区版 这是代码: 代码 Spark 似乎无法读取或处理 .dbc 文件格式。我有这个错误: org.apache.spark.SparkClassNotFoundException:[

回答 1 投票 0

COPY INTO:如何添加分区?

Databricks 中的 COPY INTO 命令提供了将幂等文件摄取到增量表中的功能,请参阅此处。从文档来看,示例命令如下所示: 复制到 delta.`target_path` 来自(东南...

回答 1 投票 0

Scala 2.13 和 Spark 3.2.1 不在执行器上同时运行

尝试使用scala 2.13和spark 3.2.1对列表进行并行处理。它似乎在本地与本地4线程的spark master一起在单个任务中运行[4]。这里可能缺少一些东西。 下面是...

回答 1 投票 0

以JSON格式增量存储来自API的数据

我正在尝试请求此API并在数据湖中以增量方式存储数据。 这是我正在尝试获取的 API:获取 Bee 消息 代码: 导入请求 导入 json 导入操作系统 网址=“...

回答 1 投票 0

有流聚合时不支持Append输出模式

我遇到了当存在流聚合时不支持附加输出模式的问题。正如这里提到的,我需要在下面的代码中的 groupby 语句中添加修改,如下所示 银...

回答 1 投票 0

如何从另一个 Databricks 作业触发一个 Databricks 作业?

我目前正在开展一个项目,其中我在 Databricks 上有两项不同的工作。第二项工作取决于第一项工作的结果。 我想知道是否有办法自动触发...

回答 2 投票 0

用逗号分隔值并添加一列指示这些值的顺序

我有一列用逗号分隔的值,我希望将它们分开并按商店和区域为每个值组创建一行。然后创建一个列,指示每个值的顺序:

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.