有关Databricks统一分析平台的问题
Databricks,如何使用 python 字典和 SQL UPDATE 命令更新增量表中具有 MAP 数据类型的列的值?
我在 Databricks 中创建了一个增量表: %sql 如果不存在则创建表 dev.bronze.test_map ( 身份证, table_updates MAP, 约束 test_map_pk 主要...
我在 Databricks 中定义了一个带有主键的增量表: %sql 如果不存在则创建表 test_table_pk ( 表名字符串不为空, 标签字符串不为空, table_location STRING NOT N...
无法解析给定输入列的“abx-abc-123.A1.OP”:[abx-abc-123.A1.OP,column2,column3]
我有一个在此结构中命名的列 - 'abx-abc-123.A1.OP' 但是当我运行这个命令时 final_merged_df.select('abx-abc-123.A1.OP') 我收到“无法解析‘abx-abc-123.A1.OP’”
非分区数据块增量表上的 Z 顺序和增量数据添加导致全表 Z 顺序
我有一个 databricks delta 表,大约 400GB 并且没有分区(如果大小 databricks 建议不要分区 < 1 TB), this table is target of a streaming pipeline. I have Z ordere...
我有一个简单的 Delta Live Tables 管道,它执行从 cloudFiles(s3 存储)到发布到 hive metastore 的 delta 表的多个 csv 文件的流式读取。 我有两个需求...
使用 reset_job 方法时“请求正文中给出的 JSON 无效 - 需要地图”
我正在尝试使用 cli 更改现有作业设置但是当我调用 reset_job 方法时出现此错误: 追溯(最近一次通话): 文件“/home/vsts/work/1/s/S1.
(Databricks-Spark)如何解决使用秘密范围保护登录信息导致 Spark 数据框也被编辑的问题?
我在我们的 Databricks 帐户中注册了一个秘密范围,其中详细说明了登录参数。 secret_scope = "我的秘密" params = ["用户", "密码"] conn_params = {pa...
input_list=[输入A,输入B,输入C] 我在下面有一张这样的桌子 职位编号 |时间戳 |输入值 | |:---- |:-------------------------------- | ------------------...
Azure-Databricks autoloader Binaryfile 选项与 foreach() 给出 java.lang.OutOfMemoryError: Java heap space
我正在尝试使用 BinaryFile 选项和自动加载器中的 foreach(copy) 将文件从一个位置复制到另一个位置。它在较小的文件(最多 150 MB)上运行良好,但在较大的文件上运行失败
[unixODBC][驱动程序管理器]无法打开库“Simba Spark ODBC 驱动程序”:找不到文件
我在 c# 中创建了一个 API 以使用 ODBC 连接访问 Databricks,在安装 Simba 驱动程序后,它在本地运行良好。 通过 Azure 管道,创建要部署在 AWS EC 上的 docker 镜像...
databricks 在工作流/作业中使用服务主体 + 远程存储库
我想创建一个所有者设置为服务主体的数据块作业。主要原因是,如果人们离开公司,没有什么可以改变的,也不会因为 PAT 失败或
使用 ipywidget 从另一个笔记本运行 Azure Databricks 笔记本
我正在尝试使用 dbutils.notebook.run 从另一个笔记本运行一个笔记本,如下所示: 将 ipywidgets 导入为小部件 从 ipywidgets 导入交互 从 ipywidgets 导入框 按钮 = 宽度...
PySpark 和 Protobuf 反序列化 UDF 问题
我收到这个错误 无法腌制 :找不到 google.protobuf.pyext._message.CMessage 当我尝试在 PySpark 中创建 UDF 时。
Log4j 警告:初始作业尚未接受任何资源;检查您的集群 UI 以确保工作人员已注册并拥有足够的资源 [关闭]
我在 airflow 工作,它有 30 多个任务集成到工作中。出于云成本优化的目的,我们实施了以下方法。 创建了一个包含每个任务名称、min_workers 的 json ...
我有一个这样的表,这里有一个名为 input_values 的列,数组中的值转到 ml 模型。每个数组的第一个值转到 model1,第二个值转到 model2 .....
我正在尝试在使用全局临时视图和使用存储之间进行选择 在 spark 应用程序之间传递数据。 (更具体地说是在数据块笔记本之间) 我想知道什么时候
我想显示与笔记本位于同一文件夹中的图像。 我所能找到的只是如何显示保存在 dbfs 中的图像,比如 我想显示与笔记本位于同一文件夹中的图像。 我所能找到的只是如何显示保存在 dbfs 中的图像,比如 <img src="files/myimage.png" width="1000" /> 其中文件实际上是 dbfs:/FileStore。 但是,我的笔记本在 repo 中,笔记本的绝对位置会发生变化。 我只能保证图像与笔记本位于同一位置。
从今天开始,我无法使用 Azure Databricks 导入 seaborn。只需将 seaborn 作为 sns 导入即可。我该怎么做才能让它发挥作用? 将 seaborn 导入为 sns 出现以下错误: ----...
databricks 自动加载器使用 MAP() 类型作为模式提示
我正在尝试在 pyspark databricks 中使用自动加载器设置 readStream: .option("cloudFiles.format", "csv") \ .option("inferSchema", True) \...
如何获取 Databricks DBFS 路径的 S3 位置
我知道我的 DBFS 路径由 S3 支持。 是否有任何实用程序/函数可以从 DBFS 路径获取确切的 S3 路径? 例如, %Python required_util('dbfs:/user/hive/warehouse/default.db/students') >...