databricks 相关问题

有关Databricks统一分析平台的问题

如何在databricks或浏览器中打开index.html文件？

我正在尝试通过databricks打开index.html文件。有人可以让我知道如何处理吗？我正在尝试将 GX 与 databricks 一起使用，目前，data bricks 将此文件存储在此处：db...

databricks azure-databricks great-expectations

回答 1 投票 0

条件期望包含/类似功能和错误（很大的期望）

我正在尝试添加一个条件期望，检查“值”列是否不等于零，但仅针对“条件”列包含的数据集的子集

pandas pyspark databricks azure-databricks great-expectations

回答 1 投票 0

无法在 Databricks 中创建元存储

遵循了 https://www.youtube.com/watch?v=cylJ9hPmt7c 中的所有步骤，但仍然出现错误，这里是一个示例。不明白为什么。也尝试过不同的地区。我有数据帐户管理员...

databricks aws-databricks databricks-unity-catalog

回答 1 投票 0

Databricks 从 Unity 目录和文件系统中删除托管表

根据 Databricks 文档，删除托管表还将删除文件系统中的所有文件和文件夹。如果我想使用 %sql drop Catalog.schema.tablename 删除托管表，ta...

databricks azure-databricks

回答 1 投票 0

Azure Databricks 错误 - 笔记本的输出太大。原因：rpc 响应

错误消息 - 作业失败并出现错误消息笔记本的输出太大。原因：rpc 响应（20972488 字节）超出 20971520 字节的限制细节：我们正在使用 databricks noteb...

scala databricks azure-databricks

回答 2 投票 0

Databricks 增量文件到 SQL 表 (Azure)

在 Databricks 中，我想将 Delta 文件上传到 SQL 中已存在的表。但我需要只上传不存在的记录。我正在使用这段代码： %scala val df = Spark.read....

sql-server dataframe azure scala databricks

回答 0 投票 0

在 Apace Spark 中创建隐式笛卡尔积

我在sparksql中有三个连接（TableA，TableB和TableC），其中有主键。执行时，此连接会创建两种类型的计划。计划 1 - 没有笛卡尔积且复杂...

apache-spark apache-spark-sql databricks azure-databricks databricks-sql

回答 0 投票 0

如何从Databricks增量表中获取增量数据？

我们每天都会将数据刷新到我们的增量表中。现在我们只需将上次运行的增量数据推送到 S3（不是完整数据）。如何将增量数据导入Dataframe？我们已经确定...

python pyspark databricks azure-databricks delta-lake

回答 2 投票 0

从 Databricks 卸载预安装的 python 包

Datasets python 包预安装在 databricks 集群上。我想在创建/启动集群时卸载它或完全阻止它的安装。我在

python databricks huggingface-datasets

回答 1 投票 0

在Databricks SQL端点中，在databricks中没有找到SQL Server PATINDEX相等函数

SQL Server 例如：- SELECT PATINDEX('%[0-9]%', 'Apple5Ball6') 测试结果：- 6 我们如何在 Databricks SQL 端点中获得相同的结果？

database databricks azure-databricks databricks-sql patindex

回答 1 投票 0

使用 Spark(Databricks) 的并行 REST API 请求

我想利用 Spark（它在 Databricks 上运行，我正在使用 PySpark）向 REST API 发送并行请求。现在我可能面临两种情况： REST API 1：返回数据...

rest apache-spark pyspark databricks azure-databricks

回答 2 投票 0

以编程方式分离笔记本

是否可以以编程方式从集群中分离笔记本？也许使用 databricks API 或 CLI 或其他 SDK？背景：一些笔记本在我们的共享集群上闲置数小时。用户...

databricks

回答 1 投票 0

rdd.zipWithIndex() 在非常大的数据集上抛出 IllegalArgumentException

我正在 Azure Databricks 中运行 python 笔记本。尝试使用 rdd.zipWithIndex() 添加行号时出现 IllegalArgumentException 错误。该文件大小为 2.72 GB，有 1238951 行（我

python pyspark databricks rdd azure-databricks

回答 2 投票 0

Databricks 作业超时

我已经创建了一个作业，但在 Databricks 中大约 10 分钟后任务超时，没有任何消息。我尝试了几个不同的集群，每次都会发生同样的情况。截屏代码是

timeout databricks

回答 0 投票 0

在 Databricks 笔记本中运行 dbt 宏作为工作流程的一部分

所以..我有Databricks并且我正在使用dbt-databricks适配器来运行dbt。一切正常，但由于某些原因，我需要在笔记本内运行一些东西。这在一段时间内仍然运行良好......

databricks dbt

回答 0 投票 0

Databricks Autoloader 多个文件夹

我很难理解自动加载器如何处理 adls gen 2 中的多个文件夹以及我应该如何传递 data_source 路径。我有以下文件夹 strcutre，其中正在加载数据...

azure databricks azure-databricks databricks-autoloader

回答 1 投票 0

无法使用架构注册表获取正确的架构

我正在使用 PySpark 中的 from_avro 函数以 Avro 格式从 Kafka 读取数据，并利用在模式注册表中注册的模式。但是，我遇到了一个问题，该问题...

apache-spark pyspark databricks spark-streaming spark-avro

回答 1 投票 0

如何使用 Spark sql 在 Databricks 中获取最新版本的更改数据源

%sql 创建或替换临时视图 table_vrns 作为（选择 * 从 (SELECT *,rank() over (按存储顺序按 _commit_version desc 分区) 作为排名 FROM table_changes('

apache-spark-sql databricks change-data-capture aws-databricks

回答 0 投票 0

Databricks 在加载 Python 库时在 Azure 中池化集群性能

我在使用 databricks 中的池来执行 ETL 作业时遇到性能问题。集群需要 5-6 分钟来唤醒并加载 python 库和 ETL 作业（pyspark-airflow）...

azure databricks cluster-computing pool

回答 0 投票 0

如何使用 pyspark 为每个组创建 3 天滚动顺序 id

我已经为这个问题苦苦挣扎了一段时间了。（关联）。我想为每个组（电话号码和服务）创建一个 3 天的连续 ID。 ID 应从

pyspark databricks

回答 1 投票 0

databricks 相关问题

最新问题