databricks 相关问题

有关Databricks统一分析平台的问题

Databricks,如何使用 python 字典和 SQL UPDATE 命令更新增量表中具有 MAP 数据类型的列的值?

我在 Databricks 中创建了一个增量表: %sql 如果不存在则创建表 dev.bronze.test_map ( 身份证, table_updates MAP, 约束 test_map_pk 主要...

回答 1 投票 0

Databricks,如何强制增量表列具有唯一值?

我在 Databricks 中定义了一个带有主键的增量表: %sql 如果不存在则创建表 test_table_pk ( 表名字符串不为空, 标签字符串不为空, table_location STRING NOT N...

回答 0 投票 0

无法解析给定输入列的“abx-abc-123.A1.OP”:[abx-abc-123.A1.OP,column2,column3]

我有一个在此结构中命名的列 - 'abx-abc-123.A1.OP' 但是当我运行这个命令时 final_merged_df.select('abx-abc-123.A1.OP') 我收到“无法解析‘abx-abc-123.A1.OP’”

回答 1 投票 0

非分区数据块增量表上的 Z 顺序和增量数据添加导致全表 Z 顺序

我有一个 databricks delta 表,大约 400GB 并且没有分区(如果大小 databricks 建议不要分区 < 1 TB), this table is target of a streaming pipeline. I have Z ordere...

回答 0 投票 0

增量实时表完全刷新不允许架构更改

我有一个简单的 Delta Live Tables 管道,它执行从 cloudFiles(s3 存储)到发布到 hive metastore 的 delta 表的多个 csv 文件的流式读取。 我有两个需求...

回答 1 投票 0

使用 reset_job 方法时“请求正文中给出的 JSON 无效 - 需要地图”

我正在尝试使用 cli 更改现有作业设置但是当我调用 reset_job 方法时出现此错误: 追溯(最近一次通话): 文件“/home/vsts/work/1/s/S1.

回答 1 投票 0

(Databricks-Spark)如何解决使用秘密范围保护登录信息导致 Spark 数据框也被编辑的问题?

我在我们的 Databricks 帐户中注册了一个秘密范围,其中详细说明了登录参数。 secret_scope = "我的秘密" params = ["用户", "密码"] conn_params = {pa...

回答 1 投票 0

如何创建以列表中的值命名的列并从数组中分配值?

input_list=[输入A,输入B,输入C] 我在下面有一张这样的桌子 职位编号 |时间戳 |输入值 | |:---- |:-------------------------------- | ------------------...

回答 2 投票 0

Azure-Databricks autoloader Binaryfile 选项与 foreach() 给出 java.lang.OutOfMemoryError: Java heap space

我正在尝试使用 BinaryFile 选项和自动加载器中的 foreach(copy) 将文件从一个位置复制到另一个位置。它在较小的文件(最多 150 MB)上运行良好,但在较大的文件上运行失败

回答 1 投票 0

[unixODBC][驱动程序管理器]无法打开库“Simba Spark ODBC 驱动程序”:找不到文件

我在 c# 中创建了一个 API 以使用 ODBC 连接访问 Databricks,在安装 Simba 驱动程序后,它在本地运行良好。 通过 Azure 管道,创建要部署在 AWS EC 上的 docker 镜像...

回答 0 投票 0

databricks 在工作流/作业中使用服务主体 + 远程存储库

我想创建一个所有者设置为服务主体的数据块作业。主要原因是,如果人们离开公司,没有什么可以改变的,也不会因为 PAT 失败或

回答 0 投票 0

使用 ipywidget 从另一个笔记本运行 Azure Databricks 笔记本

我正在尝试使用 dbutils.notebook.run 从另一个笔记本运行一个笔记本,如下所示: 将 ipywidgets 导入为小部件 从 ipywidgets 导入交互 从 ipywidgets 导入框 按钮 = 宽度...

回答 1 投票 0

PySpark 和 Protobuf 反序列化 UDF 问题

我收到这个错误 无法腌制 :找不到 google.protobuf.pyext._message.CMessage 当我尝试在 PySpark 中创建 UDF 时。

回答 1 投票 0

Log4j 警告:初始作业尚未接受任何资源;检查您的集群 UI 以确保工作人员已注册并拥有足够的资源 [关闭]

我在 airflow 工作,它有 30 多个任务集成到工作中。出于云成本优化的目的,我们实施了以下方法。 创建了一个包含每个任务名称、min_workers 的 json ...

回答 0 投票 0

如何将数组中的值分配给具有从列表中命名的新列的表

我有一个这样的表,这里有一个名为 input_values 的列,数组中的值转到 ml 模型。每个数组的第一个值转到 model1,第二个值转到 model2 .....

回答 2 投票 0

在 spark 中使用全局临时视图时如何评估查询?

我正在尝试在使用全局临时视图和使用存储之间进行选择 在 spark 应用程序之间传递数据。 (更具体地说是在数据块笔记本之间) 我想知道什么时候

回答 0 投票 0

在数据块笔记本中显示图像

我想显示与笔记本位于同一文件夹中的图像。 我所能找到的只是如何显示保存在 dbfs 中的图像,比如 我想显示与笔记本位于同一文件夹中的图像。 我所能找到的只是如何显示保存在 dbfs 中的图像,比如 <img src="files/myimage.png" width="1000" /> 其中文件实际上是 dbfs:/FileStore。 但是,我的笔记本在 repo 中,笔记本的绝对位置会发生变化。 我只能保证图像与笔记本位于同一位置。

回答 0 投票 0

我无法在 Databricks 中导入 seaborn

从今天开始,我无法使用 Azure Databricks 导入 seaborn。只需将 seaborn 作为 sns 导入即可。我该怎么做才能让它发挥作用? 将 seaborn 导入为 sns 出现以下错误: ----...

回答 0 投票 0

databricks 自动加载器使用 MAP() 类型作为模式提示

我正在尝试在 pyspark databricks 中使用自动加载器设置 readStream: .option("cloudFiles.format", "csv") \ .option("inferSchema", True) \...

回答 0 投票 0

如何获取 Databricks DBFS 路径的 S3 位置

我知道我的 DBFS 路径由 S3 支持。 是否有任何实用程序/函数可以从 DBFS 路径获取确切的 S3 路径? 例如, %Python required_util('dbfs:/user/hive/warehouse/default.db/students') >...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.