databricks 相关问题

有关Databricks统一分析平台的问题

使用 Python 读取 Databricks 笔记本中的 .dbf 文件

我对 Databricks 和 Python 还很陌生，特别是一件事一直困扰着我 - 如果有人能够为我指出正确的方向，我将非常感激。我正在努力重新...

python-3.x databricks azure-databricks dbf

回答 1 投票 0

如何使用 SQL 查询显示数据块中列的标签？

我已将一个特定标签添加到数据块目录中一个特定增量表的一列中，但是当我使用 desc table 时，我无法看到列的标签，它只显示该列...

databricks azure-databricks

回答 1 投票 0

在 Azure Databricks 中找不到 Unity 目录“创建元存储”

我正在尝试按照本文档 Unity Catalog 在 Azure Databricks 中设置 Unity Catalog，但我在 Databricks 上找不到“创建元存储”。我需要做什么？

azure databricks databricks-unity-catalog

回答 1 投票 0

使用参数调用 Databricks 笔记本时 %run 和 dbutils.notebook.run 之间不一致

我在尝试使用 dbutils.notebook.run() 时遇到了一个错误，而在我看来，使用 %run 命令时却没有遇到这样的错误。我希望我只是失踪了

databricks azure-databricks

回答 1 投票 0

当 autoCompact = 'auto' 并且不使用分区时，设置 optimizeWrite = 'true' 的任何原因

我使用时间序列数据，时间摄取集群（无分区）已被证明运行良好。在 Databricks 文档中写道“优化写入对于分区选项卡最有效......

databricks azure-databricks delta-lake

回答 1 投票 0

错误：在 SQL 的视图定义中发现重复的列

我有2张桌子。表a和表b。我需要每 1 小时刷新一次整个 sql 查询。 %sql 创建临时视图 temp_view_01 或将其替换为选择a.*，b.预订， b.容器， b.负载，b.

sql databricks databricks-sql

回答 1 投票 0

在 repo 父目录（/Repos？）中运行 DataBricks 笔记本

在 DataBricks 中，我尝试使用 %run 在当前笔记本的父目录中运行笔记本： %运行“../notebook_name.py” 我遇到的问题是它的路径...

python databricks

回答 1 投票 0

“databricks 存储库更新”返回“尝试注销 ADD 并重新登录”

我正在使用新的 Databricks cli (v0.203.2) 借助 Databricks PAT 和工作区 URL，我可以成功运行以下命令： databricks 存储库列表，我看到存储库列表但是，当我运行时：

databricks databricks-cli databricks-repos

回答 1 投票 0

星型模式（数据建模）仍然与使用 Databricks 的 Lake House 模式相关吗？

我对 Lake House 架构模式了解得越多，并关注 Databricks 的演示，我几乎看不到任何关于传统数据仓库中的维度建模的讨论（Kim...

apache-spark bigdata databricks azure-databricks databricks-sql

回答 3 投票 0

有没有办法使用CROSS APPLY从SQL到Spark SQL？

我有复杂的存储过程，内部使用多个视图/函数，内部有多个交叉应用，我不确定是否有一个“简单的解决方案”可以在 sp 中复制它...

databricks azure-databricks cross-join databricks-sql cross-apply

回答 1 投票 0

pandas 上 Delta Lake 内存消耗不合理

我正在使用 Delta Lake 开发 Databricks。我有一个大小约为 1.9GB 的数据集（镶木地板格式）。我正在尝试将此数据集转换为增量表，并且我能够成功创建

pandas apache-spark databricks etl delta-lake

回答 1 投票 0

无法使用 Databricks 将文件保存到第 2 代的分区子文件夹中

我有一个带有容器的 gen2 帐户。容器内有一个文件夹，文件夹内有8个分区的子文件夹。存储帐户结构如下。存储帐户/ 容器/ ...

azure pyspark databricks

回答 1 投票 0

PySpark - 逐行分解 XML 数据

我有一个 PySpark DF，其字符串列中包含 XML 数据，如下所示 - XML 数据如下 - ...

xml pyspark databricks

回答 1 投票 0

Databricks 中的集群未启用 Unity 目录

我们正在 Azure Databricks 中尝试 Unity 目录。我们将预先存在的工作区连接到新的元存储。我创建了一个新目录。当我运行笔记本并尝试写入表时“

databricks azure-databricks databricks-unity-catalog

回答 3 投票 0

Delta 表已被删除，但 Delta 文件在后端银层可用

Delta 表已被删除，但 Delta 文件在后端银层可用使用的方法是：我们通过将 parquet 文件从 raw 加载到 silver 来进行摄取，删除 delta 文件夹 e...

databricks azure-databricks delta-lake databricks-sql delta

回答 1 投票 0

为什么 dlt 包对 azure databricks 笔记本不可见？

我是不是误会了什么？ dlt 包不是应该本地可用吗？我收到此错误：ModuleNotFoundError：没有名为“dlt”的模块我关注了这个文档，但它似乎没用

databricks azure-databricks

回答 1 投票 0

PySpark - 如何“sc.parallelize”生成生成器的函数（Pickling Error）？

我的具体用例非常不同，但这个简单的示例能够复制我的问题。 def foo(inp): 产量 2*inp def栏（结果）： x = 下一个（结果）返回x inp = 范围(0,10000)

python apache-spark pyspark databricks

回答 1 投票 0

如何将 Delta Live Table 配置中的“运行方式”更改为服务原则？

我们有一个 DLT 管道指向我们开发分支中的代码。理想情况下，管道不应作为人类用户运行，而应作为服务原则运行。我们怎样才能改变这一点呢？目前看起来...

databricks azure-databricks delta-live-tables

回答 1 投票 0

CDF 功能可以在 Cloudera 发行版上使用 delta-spark 吗？

我们的应用程序使用本地 CDP (Cloudera) 集群来提交 pyspark 作业。 Spark的版本是2.x 我们现在正在探索处理 CDC 数据集并合并的选项...

pyspark databricks delta-lake change-data-capture cloudera-cdp

回答 1 投票 0

AnalysisException：在要保存的数据中找到重复的列

我正在尝试将数据帧的值插入 Databricks 上的 SQL 表中。问题是，数据框中没有（明显的）重复列。我检查了。这可能是什么？ |-- nr_cpf_cnpj:

apache-spark pyspark apache-spark-sql databricks

回答 1 投票 0

databricks 相关问题

最新问题