databricks 相关问题

有关Databricks统一分析平台的问题

DBT 和 Databricks

当尝试在 Databricks 中进行 DBT 转换时,我收到此错误; 任务 DBT_Normalization 失败,并显示消息:无法归档 dbt 工件。这导致所有下游任务都得到

回答 1 投票 0

如何根据部署的环境动态更改 Databricks 笔记本中的变量?

我想将数据从 S3 存储桶移动到 Databricks。在这两个平台上,我都有单独的 DEV、QA 和 PROD 环境。 我使用 Databricks 笔记本,并使用 terraform 将其部署到 Databricks。 机智...

回答 0 投票 0

无法使用 Terraform 为服务主体设置帐户管理员

我想为服务主体设置帐户管理员,以便创建 Unity Catalog 元存储。 Terraform 代码如下所示: 数据“databricks_service_principal”“应用...

回答 0 投票 0

pyspark 无法在 udf 中加载模块

我正在尝试将 PyNaCl 加载到在 Windows 上运行的 pyspark UDF 中。 从 nacl 导入绑定为 c def verify_signature(msg, 密钥): c.crypto_sign_ed25519ph_update(...) ... 验证_签名_u...

回答 1 投票 0

在Databricks中使用pandas.read_excel时没有文件或目录错误

我对 Databricks 的行为感到困惑: 下面您可以使用 Databricks 中的 dbutils 查看该目录的内容。它在目录中清楚地显示了 test.xlsx 文件(我什至可以打开它......

回答 0 投票 0

Databricks dbutils.fs.mv 在 BDFS 中找不到解压文件

我正在尝试按照 Microsoft 教程进行操作,了解如何导入压缩文件、解压缩文件,然后使用数据块将文件内容加载到数据框中。 本教程的第一部分进行得相当顺利,...

回答 0 投票 0

Databricks 中结构化流和 Delta Live Tables 的区别

我对 Structured Streaming 和 Delta Live Tables 之间的区别很感兴趣。 Databricks 表示,对于大多数流式或增量数据处理或 ETL 任务,Databricks 推荐 De...

回答 1 投票 0

如何通过python从excel文件中的所有工作表中读取图像

我有一个包含 4 张表的 excel 文件。其中 2 张有带数据的图像。我想从存在的 excel 文件中读取所有图像。我试过枕头和 opencv 天秤座......

回答 0 投票 0

我们如何提高 PowerBI 从 Azure Databricks lakehouse delta 表读取的性能

我们正在将数据加载到存储在 ADLS Gen2 上的 Azure Databricks 中的增量表 我们正在使用数据块中的数据工程工作区和标准 DS3V2 集群将数据读入 PowerBI ( ...

回答 0 投票 0

如何使用 Azure databricks API 创建 python wheel 类型的 Azure Databricks 作业

我想使用数据块 API 在 Azure 中创建一个类型为“python wheel”的数据块作业。我有一个 python 轮,我需要在这项工作中执行。 这个问题与我的...有关

回答 2 投票 0

如何在不使用 RDD 或 collect() 的情况下使用 pyspark 从 spark 数据帧中的列读取 Json 作为字符串或字典?

我有一个看起来像这样的数据框, +----------------------------------------+ |输出| +----------------------------------------+ |{"COLUMN1&qu...

回答 1 投票 0

为什么在 databricks 中创建具有默认值的增量表时出现错误,它显示无法执行此操作?

所以我试图创建一个具有默认时间戳值的表,它给了我以下错误: 错误:- AnalysisException:无法执行 CREATE TABLE 命令,因为默认值...

回答 2 投票 0

没有这样的文件或目录是 Azure Databricks

我正在学习如何使用 Azure 数据块。我在集群中上传了一些 csv 文件。 但是当我尝试使用 pandas 或 spark 读取这些文件时出现错误 甚至没有这样的文件或目录

回答 1 投票 0

IN 运算符上的多列不起作用

根据 Databricks 文档,这应该有效,但文档不包含在 IN 运算符中使用列名的示例。 选择 * 来自表_1 其中 (column1,column2,column3) IN ( ('foo...

回答 1 投票 0

Databricks 中的 Pivot Unpivot

我的问题是 pivot/Unpivot 在 Azure Databricks 数据工程工作区中工作吗? 我可以看到它在 SQL 工作区中完美运行。 使用一组功能是否有任何限制/差异......

回答 1 投票 0

尝试读取数据时出现 Elasticsearch Spark 连接器问题

在集群内使用 python 语言处理 Databricks 工作区。当我检查与 Elasticsearch 远程服务器的连接时,连接成功: #ELasticsearch 服务器连接 ...

回答 0 投票 0

在 Azure datalake Gen2 上创建容器

我正在尝试通过数据块使用 python 代码在 Azure Datalake Gen2 上创建容器。 我在代码中尝试了很多变体,但遇到了不同的错误。其中一个例子如下 该...

回答 0 投票 0

在 pyspark 中将字符串 dd/mmm/YYYY 转换为 yyyy-mm-dd

我有一个数据集,它有一个字符串格式的日期,我想在 pyspark 中将其转换为日期。我如何实现这一目标?我尝试了几种组合,但这些组合给了我空日期。 样本数据 ID 日期 ...

回答 0 投票 0

pyspark 使用 endswith 过滤列值

嗨,我正在尝试使用函数“endswith”过滤表中列的某些值。 桌子看起来像这样 项目名 物品价值 hp1_model1_min 1个 hp1_model2_min 1个 hp1_model3_min 1个

回答 0 投票 0

terraform变量类型错误:属性必须是整数

以下代码抛出错误 错误:属性必须是整数,得到1.123456781234567e+15 在 main.tf 第 56 行,资源“databricks_mws_permission_assignment”“ws_usergp&

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.