有关Databricks统一分析平台的问题
我正在使用 PySpark 编写以下例程,而不使用递归方法。递归方法的问题是我的数据太大(数百万行)并且编写递归......
无法使用库加载 XML 文件:com.databricks.spark.xml
我正在尝试使用 databricks 加载 XML 文件。 我的环境在azure databricks上: 14.3 LTS(包括 Apache Spark 3.5.0、Scala 2.12) 这是我失败的代码: # 加载指定的...
我在Databricks。 我有一个笔记本,它使用 join 和其他函数关联 n 个表。 我想创建一个工作流程,当至少一个输入任务时自动运行此笔记本...
当尝试使用 pyspark 读取 XML 时,它在 databricks 上运行良好 - 但在本地安装时失败: Spark.read.format("xml").option("rowTag","result").load("
Liquibase 无法在 Databricks 中创建 DatabaseChangeLog 表
我正在尝试做的事情: 我正在尝试通过创建 docker compose 文件来测试 Liquibase 与 Databricks 的使用。 错误: 我能够连接到 Databricks,但在
我在 databrciks 中有一个 delta 格式的 MANAGED 表,我想将其更改为 EXTERNAL 以确保删除表不会影响数据。然而下面的代码并没有改变 t...
我在 aws s3 中有 parquet 文件,大小为 17 TB,具有以下架构,唯一 ID 值的大小为 50,000 : UUID,身份证号 需要将其转换为以下数据结构(基本透视): ...
如何在我的 Databricks Scala 笔记本中启用日志记录? 另外,这些日志消息记录在哪里,以及如何访问这些日志?
我们可以在跨环境的databricks中使用dbutil获取秘密值吗?
我的问题很简单:我在开发环境中,与 api url 相关的 3-4 个秘密值存储在密钥库中,我可以通过传递作用域和密钥来访问它。 测试中也有同样的情况
我正在使用教程 https://docs.databricks.com/_extras/notebooks/source/mlflow/mlflow-end-to-end-example-uc.html 在 Databricks 中学习 MLflow。 本教程包括使用嵌套 MLflow 运行
我在 Databricks,那里有一个 python 笔记本,它从登陆处获取文件,处理它并保存增量表。 该笔记本包含一个参数(time_prm),允许我执行此操作...
我正在使用 Databricks CLI 列出用户组的名称和 ID。在下一步中,我使用单个组的 ID 来列出其成员。例如: databricks 组列表 这很好用,但是...
Delta Lake - 多个逻辑文件引用相同的数据文件路径
我有一个包含 2 个版本的增量表: 添加txn:path =“a.parquet”numRecords = 10deletionVector = null 添加 txn:path = "a.parquet" numRecords = 10deletionVector = (...,
如何在 PySpark Databricks 中将 DataFrame 转换为整数?
我是 PySpark 的新手,目前在 Databricks 工作,比较具有相同列结构的两个数据帧,相互比较它们(本质上是比较已加载到数据库的文件
无法从 Databricks 上的 PostgreSQL 获取数据 - 连接尝试失败
我尝试使用 JDBC 将数据从 PostgreSQL 获取到 Databricks,但遇到以下错误: Py4JJavaError:调用 o439.load 时发生错误:org.postgresql.util.PSQLExce...
使用 Azure DevOps 在 Databricks 中开发 CI/CD 流程所需的指南
我正在使用 Azure DevOps 为我的 Databricks 环境设置完整的端到端 CI/CD 流程。到目前为止,我已经开发了一个构建管道来创建 Databricks 工件 (DAB)。 不...
我在 Databricks 工作,对 PySpark 还很陌生。我有一个从 SQL 中提取的表,其中有几个列,我们将这些列的值连接到一个名为 edu_hist 的列中,然后我们...
我无法使用服务主体在帐户级别配置 Databricks Terraform 提供程序
我想将 Databricks Terraform 提供程序配置为使用具有 account_admin 权限的服务主体的 account_id 通过 Databricks 帐户 API 进行身份验证。 有没有办法...
我有一个外部增量表。它给出了以下问题。它与架构不匹配有关。我已经修改了代码来执行架构强制,即如果存在与目标表相同的列,则
如何通过 InvokeHttp NiFi 发送多部分/表单数据
我有一个第 3 方 REST,我可以使用 CURL (shell)成功地像这样调用它。该 API 返回 JSON。我尝试通过将内容类型更改为 application/x-www-form-urlenc 来调用相同的 API...