有关Databricks统一分析平台的问题
REGEXP_REPLACE 在 Databricks 中未按预期工作以向字符串添加空格
我有一行代码,用于在下面给定列的每 3 个字符后向字符串添加空格: regexp_replace(column, '(.{3})', '$1 ') as new_column 在 SQL 编辑中手动运行此代码时...
Databricks - 如何更改现有 Delta 表的分区?
我在 Databricks delta 中有一个表,它按 transaction_date 分区。我想将分区列更改为view_date。我尝试删除该表,然后使用新的分区 co 创建它...
我正在 Databricks SQL 笔记本上编写此 SQL 查询 创建或替换表student ( Student_id int 主键, 年龄整数检查(年龄>10) ) 但出现错误 [解析语法错误]:语法
使用databricks资产包,我想将作业用作YAML文件,并且能够在使用azure devops部署作业时通过更改作业名称来复制它。 例如,这是内容...
我正在将 databricks Autoloader 与 Azure blob 存储结合使用。我在源数据中更改了列名称,并且很好奇在不更改下游列的情况下处理此更改的最佳方法
Databricks pyspark pandas 与 numpy 发生错误
我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '
我有一个如下所示的 pyspark 数据框: 层次节点父节点 USREBT2.0.1 USREBT2 USREBT2.1.1 USREBT2.0.1 1004052024.0.1 1004052024 1004052024.1.1 1004052024.0.1
如何从父文件夹导入模块 python(Databricks 作业 - Python 脚本)?
项目包含以下文件夹: 项目 ├── 配置 | └── utils.py └── 来源 └── 模块01 └── 文件01.py 在文件01.py中 从 config.utils 导入 * 当在 Databricks 作业中运行带有
我下面有一个数据框,想要将该内容写入 .json 文件。 在创建输出文件时,我不需要成功部分日志文件,因此我尝试从数据帧收集()值...
如何使用Databricks限制Azure AD SPN权限?
您好,我正在使用数据砖, 和 使用 https://docs.databricks.com/api/workspace/statementexecution 我正在 Azure ADAP SPN 令牌的帮助下使用 SQL Api 语句。 我可以运行所有查询
如何使用pyspark/dbutils/databricks根据子目录的名称提取父目录的名称?
我在 ADLS gen2 上有以下文件夹结构: abfss://[email protected]/original_data/ 其中包含以下文件夹。 abc1/ abc2/<
需要将曾祖父母、祖父母、父亲、孩子等分组......在spark中单行记录
这是源数据框 ID 姓名 层 家长 孩子 1 A 1 3 2 1 1 5 3 乙 2 1 4 4 C 3 3 6 5 2 2 2 7 6 D 4 4 7 3 3 5 需要以下面的方式以动态的方式得到结果,有时孩子会...
在 databricks Scala 中,我正在分解 Map 列并将其加载到增量表中。我有一个增量表的预定义架构。 假设该模式有 4 个列 A、B、C、D。 所以,第一天我正在加载...
Databricks - 如何避免 Delta 表中的重复记录
我们的数据项目中有一个用例,其中通过实时流媒体来自源系统的源可能会检测到某些问题,并再次重新发送相同的交易,并带有一个指示的标志
我有一个场景,我必须从 ADF 管道触发 Databricks 通用集群的终止。 实现这一目标的最佳方法是什么?我尝试使用链接服务...
Databricks:动态 SQL |如何合并查询列表中的所有查询?
我正在开发一个遵循databricks中动态SQL逻辑的想法。目的是节省体力劳动。 我有一个表,其中存储了我将在动态 SQL 查询中使用的所有参数。那个...
当我有一个数据框并且它有一个列名称是属性并且属性类型是时,我遇到以下问题 |-- 属性:字符串(可空 = true) 在那一栏中我有这样的价值观...
将存储库从 AzureDevOps 克隆/复制到 Databricks
我需要使用服务主体(服务连接)创建或将存储库从 Azure DevOps 复制到 Azure Databricks,而无需询问秘密值,因为我不允许(安全性)...
Pyspark 3.5:Databricks 14.3 ML LTS 运行时对于相同代码给出不同的结果
我正在 Databricks 14.3 ML LTS 集群上运行以下代码。我正在执行从 Databricks 10.4 ML LTS 到 14.3 ML LTS 的代码迁移的验证任务。 窗口_c = ( 窗户() .
我使用下面的代码将ms sql表保存到databricks表。 驱动程序=“com.microsoft.sqlserver.jdbc.SQLServerDriver” 数据库主机=“我的服务器名称” 数据库端口=“1433&qu...