有关Databricks统一分析平台的问题
如何将 pandas 数据帧写入单个 CSV 文件到 Databricks 中已安装的 s3 存储桶?
我只找到了将 Spark 数据帧写入 s3 存储桶的资源,但这会创建一个文件夹,并在其中包含多个 csv 文件。即使我尝试重新分区或合并到 1 个文件,...
尝试使用 terraform 创建 databricks_user 时出现错误
尝试使用 terraform 创建 databricks_user 时出错 module.user.databricks_user.users["[email protected]"]:创建... ╷ │ 错误:无法创建用户:HTTP 方法 PO...
SQL 语句错误:ParseException:不匹配的输入期望
result = {'预测': [1, 1, 1, 1, 0, 1, 1, 0, 1], '成分': [[0, 0, 1, 1, 0, 1, 1, 0, 1], [0, 0, 1, 1, 0, 1, 1, 0, 1], [0, 0, 1, 1, 0, 1, 1, 0, 1], [0, 0, 1, 1, 0, 1, 1, 0, 1], [0, 0, 0, 1,...
我正在尝试实现一个 PoC,以使用 Scala 语言在 Azure Databricks 上运行 Drools。我假设 Drools 没有等效的 python 客户端。我知道其他基于 BRE python 的框架 ava...
如何通过 Terraform 创建 Unity Catalog 表/视图?
文档中有很多页面提到可以通过 Terraform 创建表和视图: 您还可以使用 Databricks Terraform 提供程序和
我在 spark 数据框中有一个 2500 行的扭矩列,数据如下 力矩 190牛米@2000rpm 250牛米@1500-2500rpm 12.7@2,700(千克@转) 1750-2750rpm 时为 22.4 千克 11.5@4,500(千克@转) 我想...
强制 Databricks SQL 样式权限,即使对于数据工程和机器学习角色也是如此
作为管理员,我希望用户被迫使用 Databricks SQL 风格的权限模型,即使在数据工程和机器学习配置文件中也是如此。 在 Databricks SQL 中,我有一个数据访问策略...
在 Databricks dbx 的作业集群中将 spark.sql 作为作业的一部分运行
有谁知道如何在作业集群的 dbx 中的 Python 脚本中运行 spark.sql 命令?我的代码以某种方式在个人计算集群上运行,但在作业集群上失败。我猜是 JDBC
我在存储在 SQL 数据库中的关系数据集中有一个大型数据集。我正在寻找一种策略和方法来将(基于数据的年龄)增量归档到成本较低的存储块...
SQL 查询在两个字符串之间选择一个字符串,其中一个可以变化
我试图从一个字符串中获取一个子字符串,我知道它前面有哪些字符,但后面的字符可能会有所不同。 85% 的时间以同一组字符结尾,但现在总是...
将 Azure Databricks 与服务主体的 JDBC 驱动程序和 Azure AD 令牌连接起来
我工作的用例是使用来自外部 Web 服务和查询表的 jdbc 驱动程序连接 Databricks 集群。 文档中解释的连接字符串(https://learn.microsoft.com/en...
如何在 spark-sql 中注释多行 %sql /* 从 database.tablename 中选择 * 条件 */ 给我以下错误 SQL语句错误: 解析异常:
According to this wonderful bog post,应该可以限制仅从某些工作区访问目录,即本节 但是,当我在这里查看地形样本时 和
以 10 秒为间隔对分区中的最小列值进行分组记录 - SQL 或 Spark Databricks
我需要以 10 秒的间隔对记录进行分组,并将最小列值作为分区的开始。如果记录超出 10 秒,则新组开始。下面是一个分区,这需要 gr...
如何将一个笔记本中的变量/函数访问到 Databricks 中的另一个笔记本
我有 Configs notebook,它有所有的 Sql Connection 配置,比如 连接属性、jdbcUrl、用户名和所有... 现在当我使用 dbutils.run.notebook("/配置",120) 在另一个笔记本中...
关于 Databricks 作业的 {{run_id}} 和 {{parent_run_id}} 变量的混淆(Azure)
在 Azure 上的 Databricks 作业中,您可以使用 {{run_id}} 和 {{parent_run_id}} 变量进行特定运行:https://docs.databricks.com/workflows/jobs/jobs.html 对于只有两个或 ...
如何使用 delta live table 与 google 云存储
[来自 databrick 社区的交叉发布:链接] 我一直在研究一个 POC,探索具有 GCS 位置的 delta 实时表。 我有些疑惑 : 如何访问 gcs 存储桶。我们必须建立
如何从 Databricks 上的 repo 导入自己的模块?
我已将 Github 存储库连接到我的 Databricks 工作区,并尝试将此存储库中的模块导入也在存储库中的笔记本中。结构是这样的: 回购名称 检查...
我有一个 Databricks 环境,我需要创建一个实时日志表,其中包含我的配置单元 Metastore 中任何增量表发生变化的所有实例。创建、更改、插入、删除、任何更改...
我有一堆镶木地板文件存储在 S3 位置,我想将其作为数据框加载。但是,在执行此操作时,有几行我不想/不需要成为数据框的一部分。什么...