databricks 相关问题

有关Databricks统一分析平台的问题

REGEXP_REPLACE 在 Databricks 中未按预期工作以向字符串添加空格

我有一行代码,用于在下面给定列的每 3 个字符后向字符串添加空格: regexp_replace(column, '(.{3})', '$1 ') as new_column 在 SQL 编辑中手动运行此代码时...

回答 1 投票 0

Databricks - 如何更改现有 Delta 表的分区?

我在 Databricks delta 中有一个表,它按 transaction_date 分区。我想将分区列更改为view_date。我尝试删除该表,然后使用新的分区 co 创建它...

回答 3 投票 0

对 SQL 查询应用检查时出现错误

我正在 Databricks SQL 笔记本上编写此 SQL 查询 创建或替换表student ( Student_id int 主键, 年龄整数检查(年龄>10) ) 但出现错误 [解析语法错误]:语法

回答 1 投票 0

Databricks Bundle Assets 创建作业

使用databricks资产包,我想将作业用作YAML文件,并且能够在使用azure devops部署作业时通过更改作业名称来复制它。 例如,这是内容...

回答 1 投票 0

Databricks AutoLoader 源列名称更改

我正在将 databricks Autoloader 与 Azure blob 存储结合使用。我在源数据中更改了列名称,并且很好奇在不更改下游列的情况下处理此更改的最佳方法

回答 1 投票 0

Databricks pyspark pandas 与 numpy 发生错误

我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '

回答 1 投票 0

Pyspark:动态扁平化层次结构表

我有一个如下所示的 pyspark 数据框: 层次节点父节点 USREBT2.0.1 USREBT2 USREBT2.1.1 USREBT2.0.1 1004052024.0.1 1004052024 1004052024.1.1 1004052024.0.1

回答 1 投票 0

如何从父文件夹导入模块 python(Databricks 作业 - Python 脚本)?

项目包含以下文件夹: 项目 ├── 配置 | └── utils.py └── 来源 └── 模块01 └── 文件01.py 在文件01.py中 从 config.utils 导入 * 当在 Databricks 作业中运行带有

回答 1 投票 0

将 pyspark 数据帧转换为 json 文件

我下面有一个数据框,想要将该内容写入 .json 文件。 在创建输出文件时,我不需要成功部分日志文件,因此我尝试从数据帧收集()值...

回答 2 投票 0

如何使用Databricks限制Azure AD SPN权限?

您好,我正在使用数据砖, 和 使用 https://docs.databricks.com/api/workspace/statementexecution 我正在 Azure ADAP SPN 令牌的帮助下使用 SQL Api 语句。 我可以运行所有查询

回答 1 投票 0

如何使用pyspark/dbutils/databricks根据子目录的名称提取父目录的名称?

我在 ADLS gen2 上有以下文件夹结构: abfss://[email protected]/original_data/ 其中包含以下文件夹。 abc1/ abc2/<

回答 1 投票 0

需要将曾祖父母、祖父母、父亲、孩子等分组......在spark中单行记录

这是源数据框 ID 姓名 层 家长 孩子 1 A 1 3 2 1 1 5 3 乙 2 1 4 4 C 3 3 6 5 2 2 2 7 6 D 4 4 7 3 3 5 需要以下面的方式以动态的方式得到结果,有时孩子会...

回答 1 投票 0

如何将数据插入到具有更改架构的增量表中

在 databricks Scala 中,我正在分解 Map 列并将其加载到增量表中。我有一个增量表的预定义架构。 假设该模式有 4 个列 A、B、C、D。 所以,第一天我正在加载...

回答 1 投票 0

Databricks - 如何避免 Delta 表中的重复记录

我们的数据项目中有一个用例,其中通过实时流媒体来自源系统的源可能会检测到某些问题,并再次重新发送相同的交易,并带有一个指示的标志

回答 1 投票 0

Azure 数据工厂触发 Databricks 集群终止

我有一个场景,我必须从 ADF 管道触发 Databricks 通用集群的终止。 实现这一目标的最佳方法是什么?我尝试使用链接服务...

回答 1 投票 0

Databricks:动态 SQL |如何合并查询列表中的所有查询?

我正在开发一个遵循databricks中动态SQL逻辑的想法。目的是节省体力劳动。 我有一个表,其中存储了我将在动态 SQL 查询中使用的所有参数。那个...

回答 1 投票 0

如何在 Pyspark 中使用复杂数据类型

当我有一个数据框并且它有一个列名称是属性并且属性类型是时,我遇到以下问题 |-- 属性:字符串(可空 = true) 在那一栏中我有这样的价值观...

回答 1 投票 0

将存储库从 AzureDevOps 克隆/复制到 Databricks

我需要使用服务主体(服务连接)创建或将存储库从 Azure DevOps 复制到 Azure Databricks,而无需询问秘密值,因为我不允许(安全性)...

回答 1 投票 0

Pyspark 3.5:Databricks 14.3 ML LTS 运行时对于相同代码给出不同的结果

我正在 Databricks 14.3 ML LTS 集群上运行以下代码。我正在执行从 Databricks 10.4 ML LTS 到 14.3 ML LTS 的代码迁移的验证任务。 窗口_c = ( 窗户() .

回答 1 投票 0

如何将数据框作为表保存到databricks数据库

我使用下面的代码将ms sql表保存到databricks表。 驱动程序=“com.microsoft.sqlserver.jdbc.SQLServerDriver” 数据库主机=“我的服务器名称” 数据库端口=“1433&qu...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.