databricks 相关问题

有关Databricks统一分析平台的问题

使用 Python 读取 Databricks 笔记本中的 .dbf 文件

我对 Databricks 和 Python 还很陌生,特别是一件事一直困扰着我 - 如果有人能够为我指出正确的方向,我将非常感激。 我正在努力重新...

回答 1 投票 0

如何使用 SQL 查询显示数据块中列的标签?

我已将一个特定标签添加到数据块目录中一个特定增量表的一列中,但是当我使用 desc table 时,我无法看到列的标签,它只显示该列...

回答 1 投票 0

在 Azure Databricks 中找不到 Unity 目录“创建元存储”

我正在尝试按照本文档 Unity Catalog 在 Azure Databricks 中设置 Unity Catalog,但我在 Databricks 上找不到“创建元存储”。我需要做什么?

回答 1 投票 0

使用参数调用 Databricks 笔记本时 %run 和 dbutils.notebook.run 之间不一致

我在尝试使用 dbutils.notebook.run() 时遇到了一个错误,而在我看来,使用 %run 命令时却没有遇到这样的错误。我希望我只是失踪了

回答 1 投票 0

当 autoCompact = 'auto' 并且不使用分区时,设置 optimizeWrite = 'true' 的任何原因

我使用时间序列数据,时间摄取集群(无分区)已被证明运行良好。在 Databricks 文档中写道“优化写入对于分区选项卡最有效......

回答 1 投票 0

错误:在 SQL 的视图定义中发现重复的列

我有2张桌子。 表a和表b。我需要每 1 小时刷新一次整个 sql 查询。 %sql 创建临时视图 temp_view_01 或将其替换为 选择a.*,b.预订, b.容器, b.负载,b.

回答 1 投票 0

在 repo 父目录(/Repos?)中运行 DataBricks 笔记本

在 DataBricks 中,我尝试使用 %run 在当前笔记本的父目录中运行笔记本: %运行“../notebook_name.py” 我遇到的问题是它的路径...

回答 1 投票 0

“databricks 存储库更新”返回“尝试注销 ADD 并重新登录”

我正在使用新的 Databricks cli (v0.203.2) 借助 Databricks PAT 和工作区 URL,我可以成功运行以下命令: databricks 存储库列表,我看到存储库列表 但是,当我运行时:

回答 1 投票 0

星型模式(数据建模)仍然与使用 Databricks 的 Lake House 模式相关吗?

我对 Lake House 架构模式了解得越多,并关注 Databricks 的演示,我几乎看不到任何关于传统数据仓库中的维度建模的讨论(Kim...

回答 3 投票 0

有没有办法使用CROSS APPLY从SQL到Spark SQL?

我有复杂的存储过程,内部使用多个视图/函数,内部有多个交叉应用,我不确定是否有一个“简单的解决方案”可以在 sp 中复制它...

回答 1 投票 0

pandas 上 Delta Lake 内存消耗不合理

我正在使用 Delta Lake 开发 Databricks。 我有一个大小约为 1.9GB 的数据集(镶木地板格式)。我正在尝试将此数据集转换为增量表,并且我能够成功创建

回答 1 投票 0

无法使用 Databricks 将文件保存到第 2 代的分区子文件夹中

我有一个带有容器的 gen2 帐户。容器内有一个文件夹,文件夹内有8个分区的子文件夹。存储帐户结构如下。 存储帐户/ 容器/ ...

回答 1 投票 0

PySpark - 逐行分解 XML 数据

我有一个 PySpark DF,其字符串列中包含 XML 数据,如下所示 - XML 数据如下 - ...

回答 1 投票 0

Databricks 中的集群未启用 Unity 目录

我们正在 Azure Databricks 中尝试 Unity 目录。我们将预先存在的工作区连接到新的元存储。 我创建了一个新目录。当我运行笔记本并尝试写入表时“

回答 3 投票 0

Delta 表已被删除,但 Delta 文件在后端银层可用

Delta 表已被删除,但 Delta 文件在后端银层可用 使用的方法是:我们通过将 parquet 文件从 raw 加载到 silver 来进行摄取,删除 delta 文件夹 e...

回答 1 投票 0

为什么 dlt 包对 azure databricks 笔记本不可见?

我是不是误会了什么? dlt 包不是应该本地可用吗? 我收到此错误:ModuleNotFoundError:没有名为“dlt”的模块 我关注了这个文档,但它似乎没用

回答 1 投票 0

PySpark - 如何“sc.parallelize”生成生成器的函数(Pickling Error)?

我的具体用例非常不同,但这个简单的示例能够复制我的问题。 def foo(inp): 产量 2*inp def栏(结果): x = 下一个(结果) 返回x inp = 范围(0,10000)

回答 1 投票 0

如何将 Delta Live Table 配置中的“运行方式”更改为服务原则?

我们有一个 DLT 管道指向我们开发分支中的代码。理想情况下,管道不应作为人类用户运行,而应作为服务原则运行。我们怎样才能改变这一点呢? 目前看起来...

回答 1 投票 0

CDF 功能可以在 Cloudera 发行版上使用 delta-spark 吗?

我们的应用程序使用本地 CDP (Cloudera) 集群来提交 pyspark 作业。 Spark的版本是2.x 我们现在正在探索处理 CDC 数据集并合并的选项...

回答 1 投票 0

AnalysisException:在要保存的数据中找到重复的列

我正在尝试将数据帧的值插入 Databricks 上的 SQL 表中。 问题是,数据框中没有(明显的)重复列。我检查了。这可能是什么? |-- nr_cpf_cnpj:

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.