databricks 相关问题

有关Databricks统一分析平台的问题

如何在Databricks集群中添加Spark配置

我正在使用 Spark Databricks 集群,并且想要添加自定义 Spark 配置。 有一个关于此的 Databricks 文档,但我没有任何线索我应该如何以及进行哪些更改....

回答 3 投票 0

用于开发的 Databricks 本地实例

我目前正在一个小团队工作,该团队正在开发基于 Databricks 的解决方案。 目前,我们的规模足够小,可以使用 Databricks 的云实例进行工作。 随着团队的成长,这不会...

回答 2 投票 0

如何使用 PySpark 对这些相关行进行分组?

我需要在 Databricks 上的 Python PySpark 中解析一些文本数据。数据如下: df = Spark.createDataFrame([("新条目", 1, 123), (“帐户”,2,无), (“c...

回答 1 投票 0

使用 Oracle SQL Developer 和 JDBC 驱动程序连接到 Databricks SQL Warehouse

我已阅读:如何使用 Oracle SQL Developer 连接到 MySQL 数据库? 我想使用 Oracle SQL Developer 连接到我的 Databricks SQL 仓库。所以我: 前往“Oracle SQL 开发...

回答 2 投票 0

为什么我在 Azure Databricks 工作区中看不到为 Unity 目录创建新元存储的选项

我有 Azure 即用即付订阅。我用于登录 Azure 门户的登录名具有全局管理员角色。我已在 Premier Tier 中创建了 Azure Databricks 服务。然后我开始工作...

回答 1 投票 0

处理 Databricks 上 Delta Live 表中联接表的增量数据加载和 SCD 类型 2

我正在开发一个利用 Databricks 上的 Delta Live Tables 的项目,其中我需要创建一个具有缓慢变化的维度类型 2 的维度(Kimball 样式)。该维度是连接 b 的结果...

回答 1 投票 0

RDD 未在 pyspark.sql.connect.dataframe.Dataframe 上实现错误

我在databricks上有一个数据框,我想在上面使用RDD api。从目录中读取后,数据帧的类型为 pyspark.sql.connect.dataframe.Dataframe 。我发现...

回答 1 投票 0

有没有办法在Databricks笔记本中参数化魔术命令?

我希望能够运行配置文件列表,并使用 %run 将配置文件中的变量导入到 databricks 笔记本中。 但我找不到动态更改文件的方法

回答 2 投票 0

执行 Databricks SQL 查询时,AWS ECS 上的 Spring Boot API 失败并出现“管道损坏”

我正在尝试从 Spring Boot API 对 Databricks 执行 SELECT 查询。我已经使用 Databricks 作为数据源初始化了 javax.sql.DataSource 并使用了 executeQuery() 方法来运行

回答 1 投票 0

Databricks MLFlow 和 MetaFlow 集成

我正在使用 Metaflow 来编排机器学习模型的训练管道,范围是将 Metaflow 与 Databricks MLflow 结合起来以监控 ML。 Metaflow 管道是 p...

回答 1 投票 0

在 Python/PySpark 中解析自由文本时,有 for 循环的替代方案吗?

我必须在 Databricks Python/PySpark 中读取数据,但格式不是通常的 CSV 或 JSON,因此我必须迭代 for 循环。结果是速度非常慢。 数据看起来像这样,对于毫......

回答 1 投票 0

Pyspark 新列否则会导致“应该是列”错误

我在 PySpark 中有一个 DataFrame,我想根据另一列中的值添加一个新列。我知道这很常见,我已经搜索并尝试了很多不同的方法,但是......

回答 1 投票 0

如何使用 hdbcli 将 databricks 中的 pyspark 数据帧保存到 SAP Hana(SAP 数据仓库云)?

我需要将一些数据从 AWS 上的 Databricks 推送到 SAP Data Warehouse 云,并鼓励使用 python hdbcli (https://pypi.org/project/hdbcli/)。我唯一的文档...

回答 2 投票 0

模型中的数据库错误..无法初始化路径的文件系统

最近在Azure Databricks上运行DBT时出现以下错误: 模型 un_company_sat 中的数据库错误 (models/2_un/partner/sats/un_company_sat.sql) 无法初始化路径的文件系统

回答 1 投票 0

数据源表不支持LOAD DATA

我是 ADB 新手,尝试使用 parquet 文件将数据加载到 databricks 中的表中,我给出以下命令: 在路径 '/FileStore/tables/Subsidiary__1_-2.parquet' 中加载数据本地...

回答 3 投票 0

在 Databricks 上的 PySpark 中序列化压缩文件时出现内存问题

我想在 Databricks 上的 PySpark 中解压许多 7z 格式的文件。 zip 文件包含数千个小文件。 我使用二进制文件读取文件,并使用 UDF 解压缩文件: 架构 =

回答 1 投票 0

捕获 foreachBatch 函数中引发的异常

我正在使用 Pyspark 结构化流处理 Databricks,并且希望捕获我自己在作为“.foreachBatch”函数传递到流的函数中引发的异常。 这是我的前任...

回答 1 投票 0

将嵌套的xml文件导入到多个表

我是databricks新手,想要将嵌套的xml导入到多个表中。 我有一个 xml 和一个 xsd,您可以在下面找到。 到目前为止我已经完成了以下步骤: Python代码 将 XML 导入到 df: #...

回答 1 投票 0

Databricks - 将嵌套的 xml 文件导入到多个表

我是databricks新手,想要将嵌套的xml导入到多个表中。 我有一个 xml 和一个 xsd,您可以在下面找到。 到目前为止我已经完成了以下步骤: Python代码 将 XML 导入到 df: #...

回答 1 投票 0

我们可以在部署 databricks 资产包时从 databricks 范围或密钥库中获取机密吗

我正在尝试部署一个databricks资产包,它部署了一些databricks工作流作业。 在目标环境中,我当前分别提供工作区主机名和集群 ID。 我...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.