databricks 相关问题

有关Databricks统一分析平台的问题

我们如何使用 Azure Databricks (Pyspark) 使用 Azure AD 服务主体使用来自 azure 事件中心的事件中心？

我需要一些代码片段的帮助，这些代码片段用于使用 PySpark 和 Azure AD 服务主体来使用来自 Azure EventHubs 的事件。（我不想为此使用 scala）附言结构...

pyspark databricks azure-databricks azure-eventhub

回答 1 投票 0

Spark 流处理不同文件格式的文件夹

我有一个“通用”spark 结构化流作业，它监视顶级文件夹（伞）并遍历所有子文件夹（kafka 主题数据），然后写入每个 Kafka ...

apache-spark databricks spark-streaming

回答 0 投票 0

在 Azure Databricks 中创建临时表并插入大量行

这是我正在尝试做的事情的最终结果，因为我认为我正在使它不必要地复杂化。我想查询 UPC_ID IN（非常长的 UPCS 列表）中的数据。比如，20k 行。我以为...

sql databricks sql-insert azure-databricks

回答 2 投票 0

如何按列中值的顺序按时间戳分组？

嗨，我有一张像下面这样的桌子项目名 item_value 时间戳 hpc_max 0.25 2023-03-01T17:20:00.000+0000 asset_min 0.34 2023-03-01T17:20:00.000+0000 off_median 0.30 2023-03-01T17:30:00.000+00...

python pyspark databricks

回答 0 投票 0

错误集群启动：安全守护程序注册

我在 AWS Databricks 中创建了一个带有私有链接的工作区。当我们启动集群时，我们会收到以下错误： Security Daemon 注册异常：无法设置 spark container du ...

amazon-web-services linux-kernel databricks aws-databricks aws-private-link

回答 1 投票 0

在写入 Databricks Unity 目录中的外部位置时，Delta Live Table 管道将使用哪个凭证？

由于目前 Delta Live Table (DLT) 在 Unity Catalog (UC) 中尚不支持，将 DLT 管道输出到 UC 中的外部位置是现阶段的最佳解决方法吗？如果是的话，我很好奇

databricks delta-live-tables databricks-unity-catalog

回答 0 投票 0

在 Databricks SQL (Spark SQL) 中，有没有一种方法可以按表、模式和目录计算行数？

我需要在 Databricks 中创建一个仪表板，用于汇总当前工作区中的行数。有没有办法创建一个 SQL 查询来计算表的行数，...

apache-spark apache-spark-sql databricks azure-databricks databricks-sql

回答 2 投票 0

Databricks REST API：将回购移动到工作区文件夹

我正在使用 Python Databricks REST API。我在工作区中创建文件夹： workspace_api = WorkspaceApi(api_client) workspace_api.mkdirs("/Users/xxxx/myfirstrepo") 然后，我结帐一个

databricks databricks-cli databricks-rest-api

回答 1 投票 0

Azure DataBricks 导入错误：无法导入名称 dataclass_transform

我有一个 python 笔记本在 DataBricks 集群上运行以下导入 %pip 安装 presidio_analyzer %pip 安装 presidio_anonymizer 导入 spacy.cli spacy.cli.download("en_core_web_lg&

python azure azure-data-factory databricks presidio

回答 1 投票 0

如何获取数据块工作区中所有表和数据库的名称

我想在单个数据框或表或视图中查看数据库名称、表名称、配置单元的路径表信息 = [] 对于表中表： table_info.append({"数据库": table.datab...

apache-spark pyspark databricks

回答 1 投票 0

如何使用 PySpark 查询字段中的最大值/最大值

以下数据框将产生 0 到 3 的值。 df = DeltaTable.forPath(spark, '/mnt/lake/BASE/SQLClassification/cdcTest/dbo/cdcmergetest/1').history().select(col("version")) 可以...

python pyspark apache-spark-sql databricks

回答 1 投票 0

在 Delta Lake 历史表上写 WHERE 子句

我正在尝试按照以下链接中的描述查询 Delta Lake 表的历史记录 https://learn.microsoft.com/en-us/azure/databricks/delta/history 当我如下描述增量表时描述...

databricks azure-databricks delta-lake delta

回答 2 投票 0

应该使用什么 Azure Databricks 集群策略来允许 pyspark、R、scala、SQL 并启用 AD 直通身份验证？

我最近在使用 Azure databricks 集群并注意到我需要两者 - 使用 Pyspark 从 ADLS 读取数据的 AD 直通身份验证在同一个集群上使用scala来执行diff...

databricks azure-databricks databricks-connect

回答 1 投票 0

为什么我在 Databricks 中写入 git 存储库时遇到问题？

我有一个 databricks notebook，它使用 Python 库 Pycaret 创建一个 LightGBM 模型，然后将其写入 pickle 文件。 databricks notebook 存在于 databricks repo 中，但是当我...

python databricks repo

回答 0 投票 0

Python DatabricksCLI：get_run 总是失败

我正在使用databricks的Job_Service API job={"run_name":"Pythonjob","existing_cluster_id": "xxx","notebook_task":{"notebook_path": &...

databricks databricks-cli

回答 0 投票 0

使用 spark 将 mdb 文件的表迁移到 databricks 数据库

我正在尝试使用 spark 将 mdb 文件的表迁移到数据块数据库。我在 dbfs 上保存了 mdb 文件。 (s3) dbfs:/FileStore/daniel/Northwind.mdb 我已经尝试过如下。 val jdbcDF = spark.read .

amazon-web-services apache-spark ms-access databricks cluster-computing

回答 0 投票 0

在Databricks(DBFS)中递归列出目录和子目录的文件

使用python/dbutils，如何在Databricks文件系统（DBFS）中递归显示当前目录和子目录的文件。

python-3.x azure databricks azure-databricks

回答 4 投票 0

无法在 spark ml 管道中加载带有自定义转换器的 mlflow 模型，因为缺少带有 mlflow.spark.log_model 的类的位置参数

我有一个与 spark mllib 管道一起使用的自定义转换器 python 类。我想将模型记录到 mlflow，将其注册到 mlflow 模型注册表，然后使用 spark 加载它。我可以登录...

python apache-spark databricks transformer-model mlflow

回答 0 投票 0

如何将 jinja 模板传递给 Airflow DataBricksSubmitRunOperator 中的 execution_timeout 参数？

通常，jinja 模板在双引号内传递给 Airflow 中的任何运算符，如下代码所示，从气流导入 DAG 来自 airflow.providers.databricks.operators.databricks 导入

airflow databricks azure-databricks

回答 1 投票 0

如何将表转换为数组

我有如下的表格 |项目名称 |项目值 |时间戳 | |:---- |:------:| -----:| |一个| 0.25 | 2023-03-01T17:20:00.000+0000 | |乙 | 0.34 | 2023-03-01T17:20:00.000+0000 | |一个| 0.3...

python pyspark databricks

回答 1 投票 0

databricks 相关问题

最新问题