databricks 相关问题

有关Databricks统一分析平台的问题

另一个 Databricks Notebook 中的自定义函数给出 NameError:名称“DBUtils”未定义

我有一个使用 dbutils 的函数,当我尝试使用 import 调用该函数时出现以下错误: NameError:名称“DBUtils”未定义 我尝试使用以下代码: def access_storage_ac...

回答 1 投票 0

是否可以将 pyRFC 安装到 Databricks Spark 集群上?

pyRFC 有一个 Py-pi,但与所有其他 C-python 库一样,它有很多依赖项,需要设置环境变量等。 是否可以安装c-python库...

回答 1 投票 0

Python Delta_Sharing SSL 证书验证失败:自签名证书

我无法找到解决 delta_sharing SSL 错误的答案 导入 delta_sharing 将 pandas 导入为 pd delta_sharing.SharingClient("").

回答 1 投票 0

AnalysisException:无法在流数据集/数据帧上调用“write”

我正在尝试将流数据帧保存为数据块中的银色增量表。但是,我遇到此错误: AnalysisException: 'write' 无法在流数据集/数据帧上调用 这是...

回答 1 投票 0

Delta Live Table 可以与 Scala 一起使用吗?

有关 Delta 实时表的文档没有提及 Scala 支持,只提到了 Python 和 SQL https://learn.microsoft.com/en-us/azure/databricks/delta-live-tables/。在 Databricks 指南中...

回答 1 投票 0

如何通过parquet文件的结构来了解它们是分区还是独立文件

我在 ADLS gen2 容器中有这样的文件夹/文件结构: 单位/年/月/日/ _成功 _坚定的... _开始... 部分-0000...snappy.parquet 第 0001 部分...snappy.parq...

回答 3 投票 0

Azure 云中小型到媒体数据项目的最佳架构

我参与了一个小型数据项目,其中数据摄取管道 (4) 运行了超过 6 个月,并成功收集了近 90mbs 的数据。数据量还有增加的空间...

回答 1 投票 0

flake8 使用工作流程对 github 中的 databricks python 代码进行 linting

我在github上有我的databricks python代码。我设置了一个基本工作流程来使用 flake8 对 python 代码进行 lint 处理。这会失败,因为我的脚本隐式可用的名称(如 Spark、sc、d...

回答 4 投票 0

如何通过指定开始和结束时间戳,使用 kinesis 或 kafka 中的 databricks 读取历史数据?

可以说我想读取2023年3月8日至2023年3月14日期间到达的数据 有没有一种方法可以定义结束位置以及下面的初始位置。 Spark.readStream.format...

回答 1 投票 0

CredentialUnavailableError:请运行“az login”来设置帐户

您好,我在使用新集群运行命令时遇到此错误。当我使用旧集群运行脚本时,我没有收到任何错误,但是当我使用新集群时,我收到此错误。 有没有人遇到过...

回答 1 投票 0

使用 ADB 或 Azure Synapse 将 Parquet 和 Delta 文件加载到 Azure Synapse 中?

我有一个以下案例场景。 我们使用 Azure Databricks 从多个源提取数据并生成 Parquet 和 Delta 文件,并将它们加载到我们的 ADLS Gen2 容器中。 我们现在正在计划...

回答 1 投票 0

使用 Delta Lake 实施 SCD 类型 2

我需要在我的 Delta 表中实现 SCD 类型 2。场景如下。 源表列是: -------------------------------------------------- - 状态。代码。姓名。维...

回答 1 投票 0

AttributeError:“StructType”对象没有属性“encode”

我正在尝试从 pandas 数据帧创建 Spark 数据帧。我正在基于由数组的结构类型和结构字段组成的模式构建模式。下面是示例架构: 我的架构 = (

回答 1 投票 0

Databricks dbutils.fs.ls 显示文件。然而,读取它们会引发 IO 错误

我正在运行 Spark 集群,当我在 Databricks Notebook 上执行以下命令时,它会给出输出: dbutils.fs.ls("/mnt/test_file.json") [FileInfo(path=u'dbfs:/mnt/test_file.jso...

回答 2 投票 0

Dataproc 支持 Delta Lake 格式吗?

Databricks Delta 格式是否可用于 Google 的 GCP DataProc? 对于 AWS 和 AZURE 来说,情况显然如此。然而,当仔细阅读、研究互联网时,我不确定这就是……

回答 1 投票 0

替换字符串中字符的更好方法 - Spark SQL

我是 Spark 和 Databricks Sql 的新手。我有下面提到的查询。我确信应该有一种聪明的方法来表示相同的表达式,而不是使用给定的 3 个 regexp_replace() 函数......

回答 1 投票 0

错误:Spark 驱动程序因内存问题意外停止

我有下面的代码,我需要重用前一天的标志。所以我正在运行循环。我不能在这里使用偏移量,因为一旦我知道前一天的标志,那么只有我可以使用我...

回答 1 投票 0

在 databricks 上导入 PyDeequ 包时出错

我想做一些有关数据质量的测试,为此我假装在 databricks 笔记本上使用 PyDeequ。请记住,我对 databricks 和 Spark 非常陌生。 首先,我创建了一个集群...

回答 2 投票 0

在给定表中前推日期值而不重叠

我有一个带有日期差异计算的药物表。 我想为下面给定的表创建 Nw_start 和 Nw_end 日期列。 该场景定义:我们必须推进重叠的 d...

回答 1 投票 0

REGEXP_REPLACE 在 Databricks 作业中未按预期工作以删除特定模式

我在 Databricks 中填充消费视图时遇到问题。我使用以下查询从给定列中删除特定模式(括号中的数字): REGEXP_REPLACE(

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.