有关Databricks统一分析平台的问题
我们如何使用 Azure Databricks (Pyspark) 使用 Azure AD 服务主体使用来自 azure 事件中心的事件中心?
我需要一些代码片段的帮助,这些代码片段用于使用 PySpark 和 Azure AD 服务主体来使用来自 Azure EventHubs 的事件。 (我不想为此使用 scala) 附言 结构...
我有一个“通用”spark 结构化流作业,它监视顶级文件夹(伞)并遍历所有子文件夹(kafka 主题数据),然后写入每个 Kafka ...
在 Azure Databricks 中创建临时表并插入大量行
这是我正在尝试做的事情的最终结果,因为我认为我正在使它不必要地复杂化。 我想查询 UPC_ID IN(非常长的 UPCS 列表)中的数据。比如,20k 行。 我以为...
嗨,我有一张像下面这样的桌子 项目名 item_value 时间戳 hpc_max 0.25 2023-03-01T17:20:00.000+0000 asset_min 0.34 2023-03-01T17:20:00.000+0000 off_median 0.30 2023-03-01T17:30:00.000+00...
我在 AWS Databricks 中创建了一个带有私有链接的工作区。当我们启动集群时,我们会收到以下错误: Security Daemon 注册异常:无法设置 spark container du ...
在写入 Databricks Unity 目录中的外部位置时,Delta Live Table 管道将使用哪个凭证?
由于目前 Delta Live Table (DLT) 在 Unity Catalog (UC) 中尚不支持,将 DLT 管道输出到 UC 中的外部位置是现阶段的最佳解决方法吗? 如果是的话,我很好奇
在 Databricks SQL (Spark SQL) 中,有没有一种方法可以按表、模式和目录计算行数?
我需要在 Databricks 中创建一个仪表板,用于汇总当前工作区中的行数。 有没有办法创建一个 SQL 查询来计算表的行数,...
Databricks REST API:将回购移动到工作区文件夹
我正在使用 Python Databricks REST API。 我在工作区中创建文件夹: workspace_api = WorkspaceApi(api_client) workspace_api.mkdirs("/Users/xxxx/myfirstrepo") 然后,我结帐一个
Azure DataBricks 导入错误:无法导入名称 dataclass_transform
我有一个 python 笔记本在 DataBricks 集群上运行以下导入 %pip 安装 presidio_analyzer %pip 安装 presidio_anonymizer 导入 spacy.cli spacy.cli.download("en_core_web_lg&
我想在单个数据框或表或视图中查看数据库名称、表名称、配置单元的路径 表信息 = [] 对于表中表: table_info.append({"数据库": table.datab...
以下数据框将产生 0 到 3 的值。 df = DeltaTable.forPath(spark, '/mnt/lake/BASE/SQLClassification/cdcTest/dbo/cdcmergetest/1').history().select(col("version")) 可以...
我正在尝试按照以下链接中的描述查询 Delta Lake 表的历史记录 https://learn.microsoft.com/en-us/azure/databricks/delta/history 当我如下描述增量表时 描述...
应该使用什么 Azure Databricks 集群策略来允许 pyspark、R、scala、SQL 并启用 AD 直通身份验证?
我最近在使用 Azure databricks 集群并注意到我需要两者 - 使用 Pyspark 从 ADLS 读取数据的 AD 直通身份验证 在同一个集群上使用scala来执行diff...
为什么我在 Databricks 中写入 git 存储库时遇到问题?
我有一个 databricks notebook,它使用 Python 库 Pycaret 创建一个 LightGBM 模型,然后将其写入 pickle 文件。 databricks notebook 存在于 databricks repo 中,但是当我...
Python DatabricksCLI:get_run 总是失败
我正在使用databricks的Job_Service API job={"run_name":"Pythonjob","existing_cluster_id": "xxx","notebook_task":{"notebook_path": &...
使用 spark 将 mdb 文件的表迁移到 databricks 数据库
我正在尝试使用 spark 将 mdb 文件的表迁移到数据块数据库。 我在 dbfs 上保存了 mdb 文件。 (s3) dbfs:/FileStore/daniel/Northwind.mdb 我已经尝试过如下。 val jdbcDF = spark.read .
在Databricks(DBFS)中递归列出目录和子目录的文件
使用python/dbutils,如何在Databricks文件系统(DBFS)中递归显示当前目录和子目录的文件。
无法在 spark ml 管道中加载带有自定义转换器的 mlflow 模型,因为缺少带有 mlflow.spark.log_model 的类的位置参数
我有一个与 spark mllib 管道一起使用的自定义转换器 python 类。我想将模型记录到 mlflow,将其注册到 mlflow 模型注册表,然后使用 spark 加载它。我可以登录...
如何将 jinja 模板传递给 Airflow DataBricksSubmitRunOperator 中的 execution_timeout 参数?
通常,jinja 模板在双引号内传递给 Airflow 中的任何运算符,如下代码所示, 从气流导入 DAG 来自 airflow.providers.databricks.operators.databricks 导入
我有如下的表格 |项目名称 |项目值 |时间戳 | |:---- |:------:| -----:| |一个| 0.25 | 2023-03-01T17:20:00.000+0000 | |乙 | 0.34 | 2023-03-01T17:20:00.000+0000 | |一个| 0.3...