databricks 相关问题

有关Databricks统一分析平台的问题

在数据块中读取 avro/json 文件的问题

我能够读取 Avro 文件中的数据,但正文中的数据未按预期显示。 我试过上面的代码,但正文没有按预期显示。

回答 0 投票 0

Azure Databricks:启动计算集群时出现“CrossTenantUserAssignmentRequestForbidden”错误

订阅本身,包括在帐户 A 的目录 A 中创建的 Azure Databricks,已转移到帐户 B 的目录 B。 计算集群和工作流已在

回答 1 投票 0

使用 azure databricks pyspark 访问 azure 文件

我正在尝试访问一个扩展名为 Rds 的文件。我正在使用下面的代码,但它没有帮助。 将熊猫导入为 pd url_sas_token = 'https://.file.core.windows.net...

回答 1 投票 0

在管道运行期间查看运行时的数据块笔记本值

我想看到值(python),例如。当从管道手动触发笔记本时,databricks 笔记本中运行时的变量值。 笔记本只有在流水线中运行时才会运行...

回答 0 投票 0

数据块中的 Delta 实时表数据验证

我收到了一个要求, 数据被增量复制到青铜层实时表中。一旦数据在青铜层中,就需要应用数据质量检查,最终数据需要加载到

回答 1 投票 0

在 r 脚本 difftime 输出中手动输入的最后一个值

Databricks 中的 R 编码。 我想要 date1 条目之间的时间间隔(以小时为单位),由 pid、med 和 date1 排列。 我希望手动调整每个日期的一系列事件中的最新 date1 条目...

回答 3 投票 0

如何在不插入某些列的情况下将数据合并到 Delta 表中 (PySpark)

上下文: Delta Lake 允许开发人员使用称为 Merge Statement 的东西将数据合并到一个表中。 我正在使用 Delta Lake 的更改数据馈送功能来确定我是否要插入、更新...

回答 1 投票 0

Azure databricks 显示线对齐的快捷方式

打开/关闭压痕对齐线的快捷方式是什么?如图所示?谢谢 获取使用 Azure databricks notebooks 的快捷方式

回答 1 投票 0

如何得到离某个时间最近的时间戳?

我需要选择一个时间戳每小时频率的数据。但是由于有时时间戳在确切的时间不可用,所以我需要选择时间戳最接近时间的数据。 这是

回答 2 投票 0

仅更新已更改的行 pyspark 增量表数据块

与创建的数据框相比,要求仅更新现有表中更改的行。所以现在,我确实减去并得到更改的行,但不确定如何合并到存在中......

回答 1 投票 0

Databricks PySpark 分解和透视列

我一直在处理一些数据,试图清理一些数据,我发现了一些困难,我希望这个社区能帮助我。 我有这个 json 结构 { “日期”:“2023 年 4 月 23 日&

回答 2 投票 0

Databricks Autoloader 不保存数据

我是 Databricks Autoloader 的新手。我正在尝试摄取一个简单的 csv 文件,其中包含 3 条格式为 [Fname、Lname、age] 的记录。 以下代码在Databricks中运行成功,但是没有数据

回答 0 投票 0

更新记录的分区列会影响ETL过程吗?将如何处理? [pyspark,数据块]

假设,我们将学生数据存储在一个表中。该表按学生班级划分。 从初始加载开始,学生 ID 1001 在第 7 标准中,他/她的数据存储在分区 '...

回答 0 投票 0

在pyspark中使用马赛克H3索引计算线串长度

我们如何利用H3索引来有效地计算pyspark中的线串长度? 我说过一个由节点、方式和 rels 组成的数据框。我从方式生成线串。现在……

回答 0 投票 0

从 spark sql 中的间隔中提取 HOUR

我想知道如何正确提取给定的 2 个时间戳对象之间的小时数。 例如,当执行以下 SQL 查询时: 选择 x,提取(HOUR FROM x)作为结果 ...

回答 2 投票 0

来自 Databricks 的 Jaydebeapi.connect()

我能够从数据块读取数据并将数据写入 Teradata,但无法运行 jaydebeapi.connect() 函数。 ''' '导入jaydebeapi jdbc_driver_loc ='dbfs:/FileStore/jars/

回答 0 投票 0

PySpark 中的模糊匹配优化

我正在尝试通过 PySpark 对某些数据执行一些模糊匹配。为此,我使用了 fuzzywuzzy 包并在 Databricks 上运行它。 我的数据集非常简单。它存储在...

回答 1 投票 0

如何在 dbt 模型中设置 sql 配置

我有一个 dbt 模型,它运行在 databricks sql datawarehouse 集群上。如何在执行前将 legacy_time_parser_policy 设置为 legacy? 谢谢:)

回答 0 投票 0

Databricks 缺失值未出现在计数中

在 Databricks 中执行的所有步骤。 我已经在 Databricks 中加载了我清理过的数据集,并且变量在摘要或 colSums(is.na(df)) 命令中没有显示任何缺失。我知道他们...

回答 0 投票 0

在 Databricks 中将数据帧写入 Teradata

我正在将 df 数据写入 Teradata 表之一,然后出现以下错误。我能够读取数据,只是出现写入错误。 我不明白为什么同一个驱动程序正在编写

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.