有关Databricks统一分析平台的问题
如何在databricks或浏览器中打开index.html文件?
我正在尝试通过databricks打开index.html文件。有人可以让我知道如何处理吗?我正在尝试将 GX 与 databricks 一起使用,目前,data bricks 将此文件存储在此处:db...
我正在尝试添加一个条件期望,检查“值”列是否不等于零,但仅针对“条件”列包含的数据集的子集
遵循了 https://www.youtube.com/watch?v=cylJ9hPmt7c 中的所有步骤,但仍然出现错误,这里是一个示例。不明白为什么。也尝试过不同的地区。我有数据帐户管理员...
Databricks 从 Unity 目录和文件系统中删除托管表
根据 Databricks 文档,删除托管表还将删除文件系统中的所有文件和文件夹。 如果我想使用 %sql drop Catalog.schema.tablename 删除托管表,ta...
Azure Databricks 错误 - 笔记本的输出太大。原因:rpc 响应
错误消息 - 作业失败并出现错误消息 笔记本的输出太大。原因:rpc 响应(20972488 字节)超出 20971520 字节的限制 细节: 我们正在使用 databricks noteb...
Databricks 增量文件到 SQL 表 (Azure)
在 Databricks 中,我想将 Delta 文件上传到 SQL 中已存在的表。但我需要只上传不存在的记录。 我正在使用这段代码: %scala val df = Spark.read....
我在sparksql中有三个连接(TableA,TableB和TableC),其中有主键。执行时,此连接会创建两种类型的计划。 计划 1 - 没有笛卡尔积且复杂...
我们每天都会将数据刷新到我们的增量表中。现在我们只需将上次运行的增量数据推送到 S3(不是完整数据)。 如何将增量数据导入Dataframe? 我们已经确定...
Datasets python 包预安装在 databricks 集群上。我想在创建/启动集群时卸载它或完全阻止它的安装。 我在
在Databricks SQL端点中,在databricks中没有找到SQL Server PATINDEX相等函数
SQL Server 例如:- SELECT PATINDEX('%[0-9]%', 'Apple5Ball6') 测试 结果:- 6 我们如何在 Databricks SQL 端点中获得相同的结果?
使用 Spark(Databricks) 的并行 REST API 请求
我想利用 Spark(它在 Databricks 上运行,我正在使用 PySpark)向 REST API 发送并行请求。现在我可能面临两种情况: REST API 1:返回数据...
是否可以以编程方式从集群中分离笔记本?也许使用 databricks API 或 CLI 或其他 SDK? 背景:一些笔记本在我们的共享集群上闲置数小时。用户...
rdd.zipWithIndex() 在非常大的数据集上抛出 IllegalArgumentException
我正在 Azure Databricks 中运行 python 笔记本。尝试使用 rdd.zipWithIndex() 添加行号时出现 IllegalArgumentException 错误。该文件大小为 2.72 GB,有 1238951 行(我
我已经创建了一个作业,但在 Databricks 中大约 10 分钟后任务超时,没有任何消息。我尝试了几个不同的集群,每次都会发生同样的情况。 截屏 代码是
在 Databricks 笔记本中运行 dbt 宏作为工作流程的一部分
所以..我有Databricks并且我正在使用dbt-databricks适配器来运行dbt。 一切正常,但由于某些原因,我需要在笔记本内运行一些东西。 这在一段时间内仍然运行良好......
我很难理解自动加载器如何处理 adls gen 2 中的多个文件夹以及我应该如何传递 data_source 路径。 我有以下文件夹 strcutre,其中正在加载数据...
我正在使用 PySpark 中的 from_avro 函数以 Avro 格式从 Kafka 读取数据,并利用在模式注册表中注册的模式。但是,我遇到了一个问题,该问题...
如何使用 Spark sql 在 Databricks 中获取最新版本的更改数据源
%sql 创建或替换临时视图 table_vrns 作为 ( 选择 * 从 (SELECT *,rank() over (按存储顺序按 _commit_version desc 分区) 作为排名 FROM table_changes('
Databricks 在加载 Python 库时在 Azure 中池化集群性能
我在使用 databricks 中的池来执行 ETL 作业时遇到性能问题。 集群需要 5-6 分钟来唤醒并加载 python 库和 ETL 作业(pyspark-airflow)...
如何使用 pyspark 为每个组创建 3 天滚动顺序 id
我已经为这个问题苦苦挣扎了一段时间了。 (关联)。 我想为每个组(电话号码和服务)创建一个 3 天的连续 ID。 ID 应从