有关Databricks统一分析平台的问题
Spark DataFrame 应用 Databricks 地理空间索引功能
我有一个带有 h3 十六进制 ID 的 spark DataFrame,我正在尝试获取多边形几何图形。 从 pyspark.sql 导入 SparkSession 从 pyspark.sql.functions 导入 col, expr 来自 pyspark.databricks.sql.
使用 GCM 模式解密 Databricks 中的加密字符串
我正在尝试在 GCM 模式下使用 aes_decrypt 函数解密数据块中的字符串。但是,它似乎不适用于 IV。没有找到有关如何将 IV 与 aes_decrypt 函数一起使用的任何详细信息:...
我正在 Databricks 中实现计数不同的窗口函数。 从数据中选择 *,count(distinct Marks) over(partition by Name) Databricks 似乎不支持 count distinct,怎么...
我一直在尝试使用不同的加密方法并将密钥存储在 Databricks 秘密范围内。 我一直在尝试实现这一点:https://cryptography.io/en/latest/hazmat/primiti ...
Databricks(在管理员设置下创建组(工作区本地组))
我想在管理员设置下创建组并在 Databricks 中添加用户,但是,我的查询是如果组存在/已经创建,则在组下添加用户,“如果不存在则创建组 group_name;&
有没有一种方法可以使用 spark 中的数据框列来定义关系类型? 将熊猫导入为 pd _list = [] _dict = {} _dict['ENV'] = "DEV" _dict['特权'] = "DML" _di...
databticks 中的 Foreachbatch 在第一个微批次完成后引起问题
我正在使用 foreachbatch 将流数据写入多个目标,并且它在第一次微批处理时工作正常。当它尝试运行第二个微批次时,它失败并显示以下错误...
我无法使用 databricks cli 访问 AWS Databricks 中的一个特定外部位置 databricks 统一目录外部位置得到 --name 回报 错误:授权失败...
上下文。 interval_hrs 变量中每组的最后一个间隔(pid、medname、date)将始终 == 24,因为无法计算间隔。 我正在尝试编写以下代码: 1/。如果...
我正在尝试在一个 Databricks 事务中运行多个查询。我正在为此使用 golang。但是没有实现错误。 当我查看库代码时: // Databricks 不支持。 傅...
我已经编写了使用 terrafom 创建 Databricks 工作区的代码。我正在使用 AWS。我运行了工作区的代码,我同时拥有数据块 worspace url 和令牌。现在我想用这些来创造
有条件地读取 pyspark(databricks)中的 SQL-Server 表,而不是整个表
有什么方法可以根据条件从sql-server表中将数据读入pyspark数据帧,例如只读行,其中“time_stamp”列具有当前日期? 或者,我想翻译: 选择...
这是大约 4 年前的一个问题。它适用于 Databricks Notebook。 %Python 将熊猫导入为 pd 从 io 导入 StringIO 数据=“”“ 代码,L,PS 5d8A,N,P60490 5d8b,H,P80377 ...
由于多个连接,我有一个数据框。当我检查时,它告诉我我有一个副本,尽管从我的角度来看这是不可能的。这是一个抽象的例子: 来自 pyspark.sql
如何将时间戳截断为小时并将列值存储为 Pyspark 中的变量
我想将列值作为变量存储在表中。 表格如下所示。 +----------------------------+------------------ ----------+----------------+ |时间戳...
Databricks DBX 和 deployment.yaml 上的参数替换
我想为我们的 dev、stag 和 prod 环境使用相同的工作流和任务定义。 选项 1)我正在考虑捕获一个“environment_key”作为我的 Py 的参数...
在 Azure Databricks Jar 作业中传递 Spark 配置参数
我正在尝试在 Azure Databricks spark 集群上运行 Scala Spring Boot 应用程序。 我正在使用 Jar 上传来执行应用程序。 该应用程序需要“spring.profiles.active&
我想创建一个 total_dose 变量,它继续将 dosage 变量中的值相加。一旦剂量达到 7 天,就会从 total_dose 变量中减去。 这个过程继续...
我正在尝试使用 pytest 来测试另一位同事写的一系列笔记本。我能够处理其中的大部分,但是他们调用了在 Azure Databricks 中开发的基类/模块。 这行得通...
寻找一种安全的方法来捕获增量表日志中的版本号。我见过很多大多数时候都有效的方法,但我正在寻找 100% 并发的方法...