databricks 相关问题

有关Databricks统一分析平台的问题

同时运行同一个 Databricks Python Notebook

我使用以下代码并行运行同一个笔记本三次: 从并发.futures 导入 ThreadPoolExecutor、ProcessPoolExecutor def notebook1_function(国家/地区, 天):

回答 2 投票 0

databricks 资产包轮子任务错误

我想使用 Databricks cli 在 Databricks 中部署 python 轮。但是,在运行 databricks 捆绑部署后,我收到错误: 错误:信息:找不到给定 patt 的文件...

回答 1 投票 0

Spark 调优:如何实现更多并行化?

我有一个大数据框,由于代码 137(oom 问题)而崩溃。我的集群已经拥有可以为每个执行程序提供的最大内存等。 我的基本工作流程是: 执行初始操作集 与...

回答 1 投票 0

使用 PySpark 在 Unity 目录中创建增量表

我有一个 PySpark DataFrame,我想将其创建为我的统一目录中的 Delta Table。 我有以下结构: 珠三角 |——- 着陆 |——- 青铜 |——- 银 |——- 黄金 |——- 质量保证 我有我的 prd 目录...

回答 1 投票 0

将 DataBricks API 2.0 与令牌结合使用

我正在尝试使用不记名令牌访问 DataBricks API 2.0,我收到 200 响应,但结果未显示。 我正在运行这个命令, curl -H @{'授权' = '承载者'}

回答 2 投票 0

在 Databricks 中使用 PyDeequ 配置文件时出错

我是 Python、Databricks 和 pydeequ 的新手。我正在尝试在 Databricks 中使用 pydeequ。我使用“com.amazon.deequ:deequ:2.0.4-spark-3.3”通过 Maven 安装了该库。分析仪是...

回答 1 投票 0

如何在Databricks中设置日期字段的分区大小

我有时间戳字段source_timestamp,它在对增量表的查询中经常使用。 我想按此列进行分区,分区大小 = 1 个月。 如何实现这一目标? 如果我

回答 1 投票 0

通过 ODBC 将 RStudio 桌面连接到带有 M1 芯片的 Mac OS Ventura(13.4) 上的 Databricks Community Edition

有人在 MAC OS Ventura (13.4) 和 M1 芯片上成功使用/配置带有 databricks 社区版的 Rstudio 桌面的 ODBC 吗? Databricks 社区版的链接在这里 --&...

回答 1 投票 0

Synapse - 笔记本无法通过管道工作

我在 Azure Synapse 中有一个笔记本,它使用 synapsesql 函数将 parquet 文件读入数据帧,然后将数据帧内容推送到 SQL 池中的表中。 正在执行注释...

回答 2 投票 0

如何获取每行具有 NaT 值的最大时间戳?

首先,我正在使用 Databricks 11.3 和 Python 3.9.5,因此正如我过去意识到的那样,这可能会产生影响。 对于每一行,我需要获取最新的时间戳,但一旦我

回答 2 投票 0

如何将Databricks中pyspark中的代码结果保存为csv文件,如何知道路径?

我已经使用 Pyspark 在 Databricks 中编写了代码,我需要将生成的数据帧保存为 csv 文件。我在工作区下创建了一个名为“Output”的文件夹并运行以下代码: ...

回答 1 投票 0

蓝/绿部署、表克隆和 Delta 实时表管道

这是一个相当复杂的问题,仅针对 Databricks 用户。 让我回顾一下产生它的背景。 在尝试采用蓝/绿部署协议时,我们发现很好的

回答 1 投票 0

如何在 Power BI 数据集和 Databricks SQL 仓库之间创建沿袭

我的组织希望全面了解从 Power BI 报告到数据仓库(lakehouse 架构)的沿袭情况。目前的目标是使用 Purview 创建一个 PoC。 我的问题是,...

回答 2 投票 0

作业集群的databricks中有哪些不同类型的life_cycle_state

我们正在尝试使用API(api/2.0/jobs/runs/list)获取集群life_cycle_state,我们能够获取如下各种值 跑步 待办的 终止 内部错误 还有其他值吗...

回答 1 投票 0

如何使用 Auto Loader 从 Databricks DBFS 加载数据

嗨,我似乎无法使用自动加载器从 DBFS is Databricks 正确加载数据,至少它没有显示数据——“查询没有返回结果”。欢迎任何帮助!

回答 2 投票 0

如何修复此 Databricks 分布式培训教程工作簿中的此运行时错误

我正在关注从这篇文章中找到的这个笔记本。我正在尝试使用单个节点和多个 GPU 来微调模型,因此我运行所有内容直至“运行本地训练&...

回答 1 投票 0

如何在 Azure Devops pipeline.yml 中使用 AAD 令牌对 Databricks CLI 进行身份验证

我正在尝试通过 Azure Devops 管道部署 databricks 作业(通过 databricks CLI 使用 JSON 元数据)。在这里,我尝试使用 azure AAD 令牌作为 b...

回答 1 投票 0

在 databricks pyspark 中转置或旋转数据框?

了解有关如何旋转/转置数据框的提示,以便我将转置的 Cx 名称列作为由逗号分隔的 Cx 名称的串联。 我有...

回答 1 投票 0

Databricks:集群与数据仓库 - 为什么我需要数据仓库

我正在使用Azure databricks。我正在使用笔记本写下所有与 Spark 相关的代码和 sql 查询,没有任何问题。我创建了一些 Hive 表,我可以对这些表运行 sql 查询...

回答 1 投票 0

PERMISSION_DENIED:用户对目录“__databricks_internal”没有 USE CATALOG

在 DataBricks 中开发增量实时管道时,出现此错误:PERMISSION_DENIED:用户在目录“__databricks_internal”上没有 USE CATALOG。我该如何解决这个错误?

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.