databricks 相关问题

有关Databricks统一分析平台的问题

数据湖屋和三角洲湖有什么区别?

我是 Databricks 新手。我正在阅读有关 data Lakehouse 的 Microsoft 文档。在文档中,他们提到了三角洲湖,但没有解释其中的区别,或者即使有......

回答 1 投票 0

如何知道pyspark中CDF合并影响的行数?

我有一个 CDF 逻辑,我需要知道由于合并而影响的行,即我需要知道插入、更新和删除的行数才能做出一些决定。我能够达到要求的

回答 1 投票 0

拆分具有“|”的列值分隔符并再次将“~”拆分为 pyspark 中的三个不同列(A、B、C)

我尝试首先使用 | 拆分 pyspark 数据框列“G_Codes”中的以下数据分隔符,然后将具有 ~ 分隔符的每个拆分值转换为三个新列。 | 的 |德尔...

回答 1 投票 0

无法使用 AZURE 和 Databricks 将指定数据从一个容器获取到另一个容器(数据清理)

从 pyspark.sql.functions 导入 from_utc_timestamp, date_format 从 pyspark.sql.types 导入 TimestampType 对于表名中的 i: 路径 = '/mnt/bronze/SalesLT/' + i + '/' + i + '.parquet' df = 晶石...

回答 1 投票 0

Databricks 模型注册表 Webhook HMAC 验证不起作用

Databricks 模型注册表可让您创建 Webhook 来对事件做出反应。您可以使用 HMAC 来验证 Webhook 发送的消息。这是 Databricks 文档中的 Python 示例代码。

回答 1 投票 0

如何提高 databricks 中的 display() 性能?

我将子查询与 as 分离到每个数据框中。 从 pyspark.sql 导入 DataFrame 从 pyspark.sql.window 导入窗口 从 pyspark.sql 将函数导入为 F 从日期时间导入日期时间,

回答 1 投票 0

azure databricks 中具有 Spark/dbutils 依赖项的自定义 python 模块

我最近在 Azure Databricks 上启用了预览功能“存储库中的文件”,这样我就可以将许多常规功能从笔记本移动到模块,并摆脱...

回答 2 投票 0

Databricks Delta Live 表只是在 CDC 和 SCD 之后覆盖吗?

您好 Databricks 社区, 目前我面临以下问题,我正在尝试为此找到一个好的解决方案。我使用 DLT 开发具有多跳架构的管道。 用于摄取

回答 1 投票 0

DataBricks Delta Live Tables 期望:如何动态执行 @dlt.expect()

我尝试了以下代码,但运行 DLT 管道时出现错误: 如果 kwargs.get("df_tableoperation", None) 不是 None : ^ SyntaxError: 无效语法 这个想法是动态...

回答 1 投票 0

从databricks pyspark或spark sql调用雪花过程

必须调用Snowflake存储过程并将参数值传递给它,然后读取输出。 这必须使用以下格式行中的 Databricks pyspark 来实现。 df_sp= 温泉...

回答 1 投票 0

Databricks Spark sql,事实查询,显示数据速度慢

在大桌子上使用以下示例: pages = Spark.sql('select * from table xx'),我发现查询运行在几秒钟内,但是只要我想用pages.show(n=10)查看数据就需要

回答 1 投票 0

FIELD_NOT_FOUND 在 azure databricks 上没有这样的结构字段错误

我有一个 JSON 格式的数据集,我正在尝试使用 azure Databricks 对其进行转换。 我使用爆炸函数选择了感兴趣的列,因为 json 具有嵌套数组。 来自 pyspa...

回答 1 投票 0

目录未复制到 databricks 笔记本上

考虑我的这段代码: # 定义 DBFS 上的基目录和本地目录 dbfs_base_dir = 'dbfs:/FileStore/tables/cnh_dataset/' local_base_dir = '/tmp/cnh_dataset/' # 创建...

回答 1 投票 0

根据 Databricks 中的 dbutils.fs.ls 输出创建数据框

所以,我是一名初学者,正在 Databricks 上学习 Spark 编程 (pyspark) - 我想做什么? 列出目录中的所有文件并将其保存到数据框中,以便我能够应用过滤器...

回答 4 投票 0

Databricks Notebook 中推断架构失败

我在Databricks中编写了一个spark结构化流。第一段代码是检查我的实体是否存在增量表。如果没有,则创建增量表。在这里,我想我们...

回答 1 投票 0

在流式传输和更新插入到增量表时保留分区

我目前正在使用 writestream 进行流式传输以写入现有的增量表,以便添加附加属性。 我正在使用 foreachBatch 函数,其中包含用户定义的函数

回答 1 投票 0

Databricks:提取数组中“”之间的值

我有一个名为“trigger_piece”的专栏,它的组织方式如下: [“弧”,“erf”,“erear”] 我正在寻找创建新列(在本例中为 3 个新列,例如:

回答 1 投票 0

带有 EventHub 的 Delta 实时表

我正在尝试使用 delta live 表从 eventhub 创建流,但我在安装库时遇到问题。是否可以使用 sh /pip 使用 Delta Live 表安装 maven 库...

回答 2 投票 0

Databricks:提取“”之间的值

我有一个名为“trigger_piece”的专栏,它的组织方式如下: [“弧”,“erf”,“erear”] 我正在寻找创建新列(在本例中为 3 个新列,例如:

回答 1 投票 0

使用 databricks 将增量表写入 Azure-SQL 数据库时出现性能问题

我正在尝试使用 Apache Spark 连接器将大约 2000 万条记录从 Databricks 中的 Delta 表加载到 Azure SQL 数据库:SQL Server 和 Azure SQL 支持 Python API 和 Sp...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.