databricks 相关问题

有关Databricks统一分析平台的问题

Databricks vnet 对等互连失败

我的数据块未注入 Vnet,我尝试使用专用端点访问 Vnet 中的存储帐户。 我有带有公共和私有子网的工作人员 vnet。 在数据块里面

回答 1 投票 0

Databricks:使用databricks SQL命令删除Delta日志文件

我在 Databricks 中有一个外部 Delta 表,其中的数据文件存储在 S3 后端。我想完全删除(删除)这个外部 Delta 表,包括来自...的所有数据文件和 Delta 日志文件

回答 1 投票 0

Databricks 笔记本内核在运行 Pandas 聚合时崩溃

我的问题更具概念性,与 Databricks 如何分配计算资源有关。 我遇到一个问题,当我尝试在一个小数据集上运行一系列 pandas 聚合时(...

回答 1 投票 0

Databricks 中的 Redshift 查询比 Redshift 客户端中花费的时间更长

我有一个查询,在 DBeaver(redshift 客户端工具之一)中运行大约需要 5 分钟。该查询是一个简单的选择: 选择 to_char( TO_TIMESTAMP(hit_time_gmt_ts, 'DD-Mon-YYYY HH24:MI:SS'),'

回答 1 投票 0

描述表查看哪些列不为空

在 Apache Spark SQL (Azure Databricks) 中,我创建了一个如下表: 创建表 t( 一个大整数, b BIGINT 不为空 ) 我已验证我有一个可为空的列和一个不可为空的列...

回答 3 投票 0

cat:写入错误:资源暂时不可用

我正在使用 cat 命令在 Azure Databricks Notebook 中使用 %sh 命令合并多个文件。我的 data_files 文件夹中有大约 1200 个 csv 文件,文件总大小约为 300 GB。 W...

回答 1 投票 0

调试工作流程

你们如何调试 databricks 中的工作流程?笔记本现在具有集成的调试工具,但是如何调试工作流使用参数等调用的笔记本?我可以测试一下吗...

回答 1 投票 0

如何在Databricks上的Python中导入dbutils模块

在 Databricks Python 笔记本中,我可以轻松使用 dbutils 模块。 现在我还想在导入 Databricks 笔记本的纯 Python 文件中使用它 这是一个例子。 这是

回答 2 投票 0

GeoTiff 栅格数据转换为 Delta Lake / Parquet 格式?

我们的组织最近一直在使用 Databricks 进行 ETL 和数据集开发。然而,我发现栅格数据集的库/功能非常有限。有几个光栅/Sp...

回答 2 投票 0

将 Spark 数据帧转换为 pandas 时出错:类型错误:不支持转换为无单位 dtype 'datetime64'。通过例如改为“datetime64[ns]”

我将创建一个演示数据框来重新创建我在数据块中看到的错误。 从 pyspark.sql.types 导入 StructType、StructField、TimestampType、StringType 从日期时间导入日期时间 # 定义...

回答 1 投票 0

利用大 Parquet 数据和高磁盘使用率优化 PySpark 作业

我目前正在优化一个 PySpark 作业,该作业涉及跨大型数据集的一些聚合。我对处理大规模数据相当陌生,并且遇到了磁盘问题...

回答 1 投票 0

有什么技术可以解决databricks中的倾斜数据吗?

我创建了倾斜数据来测试加盐方法,并尝试了三种不同的解决方案,但没有一个能够通过显着的运行时间改进来达到预期的结果。你能指导我最好的应用吗...

回答 1 投票 0

使用事件中心管理 PySpark Streaming 中的数据封装

使用 PySpark 流式传输数据时,我收到的主要消息封装在名为“body”的键中。 Spark.readStream.format("eventhubs").options(**ehConf).load() 难道是……

回答 1 投票 0

带连接的databricks live表可以增量更新吗?

带有连接的 Databricks 实时表(如下面的示例)是否可以增量更新,还是每次都需要完全重新计算,类似于带有连接请求的 Redshift 物化视图...

回答 1 投票 0

UCX 0.49 版本出现导入错误

我尝试从databricks UCX 运行评估作业。 它直接失败并出现错误: ImportError:无法从“databricks.sdk.errors”导入名称“InvalidState”(/databricks/python/lib/python...

回答 1 投票 0

错误 401:使用 Databricks 上的 OAuth 令牌“缺少访问模型服务端点的授权详细信息”

我正在尝试为我的 Azure Databricks 工作区生成 OAuth 令牌,以访问生产中的模型服务 API。我使用的代码成功生成了令牌,但我不断收到 401 e...

回答 1 投票 0

从 Databricks 解压 Azure Blob 存储中的文件

我正在尝试通过 Azure Databricks Pyspark 解压缩 Azure ADLS Gen2 容器中的文件。当我使用 ZipFile 时,出现 BadZipFile 错误或 FileNotFoundError。 我可以用同样的方式读取 CSV

回答 1 投票 0

Azure databricks Pyspark.ml 问题构造函数 public org.apache.spark.ml.feature.OneHotEncoder(java.lang.String) 未列入白名单

我正在使用 pyspark.ml 在 Azure Databricks 上运行 RandomForest。 错误信息: Py4JError:调用 None.org.apache.spark.ml.feature.OneHotEncoder 时发生错误。跟踪:py4j.security。

回答 1 投票 0

Power BI Desktop 到 Databricks SQL 仓库 SSL_connect:证书验证失败错误

我正在尝试通过 Databricks SQL 仓库从 Power BI Desktop 连接到 Azure Data Lake Gen2 存储中的数据。当我将服务器主机名和 HTTP 路径输入到 Azure Databricks Conn 时...

回答 1 投票 0

为什么我需要使用数据框来处理数据块中的查询? (pyspark、sparksql)

我正在和一个朋友学习databricks,有一件事我真的不明白。 我正在尝试在azure中存储帐户中的json文件中使用pyspark和spark sql进行查询。 丝路...

回答 2 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.