有关Databricks统一分析平台的问题
使用 Python 读取 Databricks 笔记本中的 .dbf 文件
我对 Databricks 和 Python 还很陌生,特别是一件事一直困扰着我 - 如果有人能够为我指出正确的方向,我将非常感激。 我正在努力重新...
我已将一个特定标签添加到数据块目录中一个特定增量表的一列中,但是当我使用 desc table 时,我无法看到列的标签,它只显示该列...
在 Azure Databricks 中找不到 Unity 目录“创建元存储”
我正在尝试按照本文档 Unity Catalog 在 Azure Databricks 中设置 Unity Catalog,但我在 Databricks 上找不到“创建元存储”。我需要做什么?
使用参数调用 Databricks 笔记本时 %run 和 dbutils.notebook.run 之间不一致
我在尝试使用 dbutils.notebook.run() 时遇到了一个错误,而在我看来,使用 %run 命令时却没有遇到这样的错误。我希望我只是失踪了
当 autoCompact = 'auto' 并且不使用分区时,设置 optimizeWrite = 'true' 的任何原因
我使用时间序列数据,时间摄取集群(无分区)已被证明运行良好。在 Databricks 文档中写道“优化写入对于分区选项卡最有效......
我有2张桌子。 表a和表b。我需要每 1 小时刷新一次整个 sql 查询。 %sql 创建临时视图 temp_view_01 或将其替换为 选择a.*,b.预订, b.容器, b.负载,b.
在 repo 父目录(/Repos?)中运行 DataBricks 笔记本
在 DataBricks 中,我尝试使用 %run 在当前笔记本的父目录中运行笔记本: %运行“../notebook_name.py” 我遇到的问题是它的路径...
“databricks 存储库更新”返回“尝试注销 ADD 并重新登录”
我正在使用新的 Databricks cli (v0.203.2) 借助 Databricks PAT 和工作区 URL,我可以成功运行以下命令: databricks 存储库列表,我看到存储库列表 但是,当我运行时:
星型模式(数据建模)仍然与使用 Databricks 的 Lake House 模式相关吗?
我对 Lake House 架构模式了解得越多,并关注 Databricks 的演示,我几乎看不到任何关于传统数据仓库中的维度建模的讨论(Kim...
有没有办法使用CROSS APPLY从SQL到Spark SQL?
我有复杂的存储过程,内部使用多个视图/函数,内部有多个交叉应用,我不确定是否有一个“简单的解决方案”可以在 sp 中复制它...
我正在使用 Delta Lake 开发 Databricks。 我有一个大小约为 1.9GB 的数据集(镶木地板格式)。我正在尝试将此数据集转换为增量表,并且我能够成功创建
无法使用 Databricks 将文件保存到第 2 代的分区子文件夹中
我有一个带有容器的 gen2 帐户。容器内有一个文件夹,文件夹内有8个分区的子文件夹。存储帐户结构如下。 存储帐户/ 容器/ ...
我有一个 PySpark DF,其字符串列中包含 XML 数据,如下所示 - XML 数据如下 - ...
我们正在 Azure Databricks 中尝试 Unity 目录。我们将预先存在的工作区连接到新的元存储。 我创建了一个新目录。当我运行笔记本并尝试写入表时“
Delta 表已被删除,但 Delta 文件在后端银层可用 使用的方法是:我们通过将 parquet 文件从 raw 加载到 silver 来进行摄取,删除 delta 文件夹 e...
为什么 dlt 包对 azure databricks 笔记本不可见?
我是不是误会了什么? dlt 包不是应该本地可用吗? 我收到此错误:ModuleNotFoundError:没有名为“dlt”的模块 我关注了这个文档,但它似乎没用
PySpark - 如何“sc.parallelize”生成生成器的函数(Pickling Error)?
我的具体用例非常不同,但这个简单的示例能够复制我的问题。 def foo(inp): 产量 2*inp def栏(结果): x = 下一个(结果) 返回x inp = 范围(0,10000)
如何将 Delta Live Table 配置中的“运行方式”更改为服务原则?
我们有一个 DLT 管道指向我们开发分支中的代码。理想情况下,管道不应作为人类用户运行,而应作为服务原则运行。我们怎样才能改变这一点呢? 目前看起来...
CDF 功能可以在 Cloudera 发行版上使用 delta-spark 吗?
我们的应用程序使用本地 CDP (Cloudera) 集群来提交 pyspark 作业。 Spark的版本是2.x 我们现在正在探索处理 CDC 数据集并合并的选项...
AnalysisException:在要保存的数据中找到重复的列
我正在尝试将数据帧的值插入 Databricks 上的 SQL 表中。 问题是,数据框中没有(明显的)重复列。我检查了。这可能是什么? |-- nr_cpf_cnpj: