databricks 相关问题

有关Databricks统一分析平台的问题

我们如何使用 Azure Databricks (Pyspark) 使用 Azure AD 服务主体使用来自 azure 事件中心的事件中心?

我需要一些代码片段的帮助,这些代码片段用于使用 PySpark 和 Azure AD 服务主体来使用来自 Azure EventHubs 的事件。 (我不想为此使用 scala) 附言 结构...

回答 1 投票 0

Spark 流处理不同文件格式的文件夹

我有一个“通用”spark 结构化流作业,它监视顶级文件夹(伞)并遍历所有子文件夹(kafka 主题数据),然后写入每个 Kafka ...

回答 0 投票 0

在 Azure Databricks 中创建临时表并插入大量行

这是我正在尝试做的事情的最终结果,因为我认为我正在使它不必要地复杂化。 我想查询 UPC_ID IN(非常长的 UPCS 列表)中的数据。比如,20k 行。 我以为...

回答 2 投票 0

如何按列中值的顺序按时间戳分组?

嗨,我有一张像下面这样的桌子 项目名 item_value 时间戳 hpc_max 0.25 2023-03-01T17:20:00.000+0000 asset_min 0.34 2023-03-01T17:20:00.000+0000 off_median 0.30 2023-03-01T17:30:00.000+00...

回答 0 投票 0

错误集群启动:安全守护程序注册

我在 AWS Databricks 中创建了一个带有私有链接的工作区。当我们启动集群时,我们会收到以下错误: Security Daemon 注册异常:无法设置 spark container du ...

回答 1 投票 0

在写入 Databricks Unity 目录中的外部位置时,Delta Live Table 管道将使用哪个凭证?

由于目前 Delta Live Table (DLT) 在 Unity Catalog (UC) 中尚不支持,将 DLT 管道输出到 UC 中的外部位置是现阶段的最佳解决方法吗? 如果是的话,我很好奇

回答 0 投票 0

在 Databricks SQL (Spark SQL) 中,有没有一种方法可以按表、模式和目录计算行数?

我需要在 Databricks 中创建一个仪表板,用于汇总当前工作区中的行数。 有没有办法创建一个 SQL 查询来计算表的行数,...

回答 2 投票 0

Databricks REST API:将回购移动到工作区文件夹

我正在使用 Python Databricks REST API。 我在工作区中创建文件夹: workspace_api = WorkspaceApi(api_client) workspace_api.mkdirs("/Users/xxxx/myfirstrepo") 然后,我结帐一个

回答 1 投票 0

Azure DataBricks 导入错误:无法导入名称 dataclass_transform

我有一个 python 笔记本在 DataBricks 集群上运行以下导入 %pip 安装 presidio_analyzer %pip 安装 presidio_anonymizer 导入 spacy.cli spacy.cli.download("en_core_web_lg&

回答 1 投票 0

如何获取数据块工作区中所有表和数据库的名称

我想在单个数据框或表或视图中查看数据库名称、表名称、配置单元的路径 表信息 = [] 对于表中表: table_info.append({"数据库": table.datab...

回答 1 投票 0

如何使用 PySpark 查询字段中的最大值/最大值

以下数据框将产生 0 到 3 的值。 df = DeltaTable.forPath(spark, '/mnt/lake/BASE/SQLClassification/cdcTest/dbo/cdcmergetest/1').history().select(col("version")) 可以...

回答 1 投票 0

在 Delta Lake 历史表上写 WHERE 子句

我正在尝试按照以下链接中的描述查询 Delta Lake 表的历史记录 https://learn.microsoft.com/en-us/azure/databricks/delta/history 当我如下描述增量表时 描述...

回答 2 投票 0

应该使用什么 Azure Databricks 集群策略来允许 pyspark、R、scala、SQL 并启用 AD 直通身份验证?

我最近在使用 Azure databricks 集群并注意到我需要两者 - 使用 Pyspark 从 ADLS 读取数据的 AD 直通身份验证 在同一个集群上使用scala来执行diff...

回答 1 投票 0

为什么我在 Databricks 中写入 git 存储库时遇到问题?

我有一个 databricks notebook,它使用 Python 库 Pycaret 创建一个 LightGBM 模型,然后将其写入 pickle 文件。 databricks notebook 存在于 databricks repo 中,但是当我...

回答 0 投票 0

Python DatabricksCLI:get_run 总是失败

我正在使用databricks的Job_Service API job={"run_name":"Pythonjob","existing_cluster_id": "xxx","notebook_task":{"notebook_path": &...

回答 0 投票 0

使用 spark 将 mdb 文件的表迁移到 databricks 数据库

我正在尝试使用 spark 将 mdb 文件的表迁移到数据块数据库。 我在 dbfs 上保存了 mdb 文件。 (s3) dbfs:/FileStore/daniel/Northwind.mdb 我已经尝试过如下。 val jdbcDF = spark.read .

回答 0 投票 0

在Databricks(DBFS)中递归列出目录和子目录的文件

使用python/dbutils,如何在Databricks文件系统(DBFS)中递归显示当前目录和子目录的文件。

回答 4 投票 0

无法在 spark ml 管道中加载带有自定义转换器的 mlflow 模型,因为缺少带有 mlflow.spark.log_model 的类的位置参数

我有一个与 spark mllib 管道一起使用的自定义转换器 python 类。我想将模型记录到 mlflow,将其注册到 mlflow 模型注册表,然后使用 spark 加载它。我可以登录...

回答 0 投票 0

如何将 jinja 模板传递给 Airflow DataBricksSubmitRunOperator 中的 execution_timeout 参数?

通常,jinja 模板在双引号内传递给 Airflow 中的任何运算符,如下代码所示, 从气流导入 DAG 来自 airflow.providers.databricks.operators.databricks 导入

回答 1 投票 0

如何将表转换为数组

我有如下的表格 |项目名称 |项目值 |时间戳 | |:---- |:------:| -----:| |一个| 0.25 | 2023-03-01T17:20:00.000+0000 | |乙 | 0.34 | 2023-03-01T17:20:00.000+0000 | |一个| 0.3...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.