databricks 相关问题

有关Databricks统一分析平台的问题

在spark / python中查找重叠行

我正在使用 PySpark 编写以下例程,而不使用递归方法。递归方法的问题是我的数据太大(数百万行)并且编写递归......

回答 1 投票 0

无法使用库加载 XML 文件:com.databricks.spark.xml

我正在尝试使用 databricks 加载 XML 文件。 我的环境在azure databricks上: 14.3 LTS(包括 Apache Spark 3.5.0、Scala 2.12) 这是我失败的代码: # 加载指定的...

回答 1 投票 0

Databricks 工作流程由至少一个涉及的表的更新触发

我在Databricks。 我有一个笔记本,它使用 join 和其他函数关联 n 个表。 我想创建一个工作流程,当至少一个输入任务时自动运行此笔记本...

回答 1 投票 0

使用本地 pyspark 安装读取 XML

当尝试使用 pyspark 读取 XML 时,它在 databricks 上运行良好 - 但在本地安装时失败: Spark.read.format("xml").option("rowTag","result").load("

回答 1 投票 0

Liquibase 无法在 Databricks 中创建 DatabaseChangeLog 表

我正在尝试做的事情: 我正在尝试通过创建 docker compose 文件来测试 Liquibase 与 Databricks 的使用。 错误: 我能够连接到 Databricks,但在

回答 1 投票 0

将 databricks 增量表类型更改为外部

我在 databrciks 中有一个 delta 格式的 MANAGED 表,我想将其更改为 EXTERNAL 以确保删除表不会影响数据。然而下面的代码并没有改变 t...

回答 2 投票 0

透视列大小为 50,000,输入文件大小为 17 TB

我在 aws s3 中有 parquet 文件,大小为 17 TB,具有以下架构,唯一 ID 值的大小为 50,000 : UUID,身份证号 需要将其转换为以下数据结构(基本透视): ...

回答 1 投票 0

在 Databricks 中启用日志记录

如何在我的 Databricks Scala 笔记本中启用日志记录? 另外,这些日志消息记录在哪里,以及如何访问这些日志?

回答 1 投票 0

我们可以在跨环境的databricks中使用dbutil获取秘密值吗?

我的问题很简单:我在开发环境中,与 api url 相关的 3-4 个秘密值存储在密钥库中,我可以通过传递作用域和密钥来访问它。 测试中也有同样的情况

回答 1 投票 0

MLflow 嵌套运行未在 GUI 中分组在一起

我正在使用教程 https://docs.databricks.com/_extras/notebooks/source/mlflow/mlflow-end-to-end-example-uc.html 在 Databricks 中学习 MLflow。 本教程包括使用嵌套 MLflow 运行

回答 1 投票 0

Databricks 为每个计划安排不同参数的工作流程

我在 Databricks,那里有一个 python 笔记本,它从登陆处获取文件,处理它并保存增量表。 该笔记本包含一个参数(time_prm),允许我执行此操作...

回答 1 投票 0

Databricks CLI 中的过滤标志不清楚

我正在使用 Databricks CLI 列出用户组的名称和 ID。在下一步中,我使用单个组的 ID 来列出其成员。例如: databricks 组列表 这很好用,但是...

回答 1 投票 0

Delta Lake - 多个逻辑文件引用相同的数据文件路径

我有一个包含 2 个版本的增量表: 添加txn:path =“a.parquet”numRecords = 10deletionVector = null 添加 txn:path = "a.parquet" numRecords = 10deletionVector = (...,

回答 1 投票 0

如何在 PySpark Databricks 中将 DataFrame 转换为整数?

我是 PySpark 的新手,目前在 Databricks 工作,比较具有相同列结构的两个数据帧,相互比较它们(本质上是比较已加载到数据库的文件

回答 1 投票 0

无法从 Databricks 上的 PostgreSQL 获取数据 - 连接尝试失败

我尝试使用 JDBC 将数据从 PostgreSQL 获取到 Databricks,但遇到以下错误: Py4JJavaError:调用 o439.load 时发生错误:org.postgresql.util.PSQLExce...

回答 1 投票 0

使用 Azure DevOps 在 Databricks 中开发 CI/CD 流程所需的指南

我正在使用 Azure DevOps 为我的 Databricks 环境设置完整的端到端 CI/CD 流程。到目前为止,我已经开发了一个构建管道来创建 Databricks 工件 (DAB)。 不...

回答 1 投票 0

在列上使用 .isin 对数据进行分类

我在 Databricks 工作,对 PySpark 还很陌生。我有一个从 SQL 中提取的表,其中有几个列,我们将这些列的值连接到一个名为 edu_hist 的列中,然后我们...

回答 1 投票 0

我无法使用服务主体在帐户级别配置 Databricks Terraform 提供程序

我想将 Databricks Terraform 提供程序配置为使用具有 account_admin 权限的服务主体的 account_id 通过 Databricks 帐户 API 进行身份验证。 有没有办法...

回答 2 投票 0

是否检测到架构不匹配时执行增量表中的写入操作

我有一个外部增量表。它给出了以下问题。它与架构不匹配有关。我已经修改了代码来执行架构强制,即如果存在与目标表相同的列,则

回答 1 投票 0

如何通过 InvokeHttp NiFi 发送多部分/表单数据

我有一个第 3 方 REST,我可以使用 CURL (shell)成功地像这样调用它。该 API 返回 JSON。我尝试通过将内容类型更改为 application/x-www-form-urlenc 来调用相同的 API...

回答 2 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.