databricks 相关问题

有关Databricks统一分析平台的问题

在 vscode 中使用数据块扩展时,我的 kedro 输出在哪里

我正在使用 kedro 和 vscode 的数据块扩展来访问 Azure 上的数据块服务器。 一切正常,但在本地执行文件时我看不到任何输出。 的...

回答 0 投票 0

使用 Datafactory 中的 Init 脚本在 Databricks 集群上安装 Maven 库

我正在尝试使用 Azure 数据工厂在作业集群上执行 Databricks Notebook。 Notebook 需要安装一些 Maven 库。我正在尝试使用 i... 进行此安装

回答 0 投票 0

在 python 中的数据块笔记本中列出所有小部件(即使那些没有被覆盖)

我想获得笔记本中使用的小部件的完整列表(即使是那些没有被覆盖的小部件)。 如果你直接运行笔记本,这个线程示例工作正常,但如果你运行你的笔记本,它就不会...

回答 1 投票 0

对子目录中的 xml 文件使用 spark.read.from("xml").option("recursiveFileLookup", "true")

我想以递归方式将所有 xml 格式的文件加载到我的数据框中,该目录位于具有其他子目录的目录中。 对于其他文件格式(txt、parquet、..),代码似乎...

回答 0 投票 0

azure pyspark sql 中的 aws hive 虚拟列

我将 AWS 上的 hive sql 翻译成 azure synapse 上的 pyspark sql。 SQL 中有一些配置单元虚拟列,我想在 azure synapse 上转换为 pyspark sql。 我怎样才能替换那些列? 参考...

回答 0 投票 0

AnalysisException:无法解析给定输入列的“timestamp”:[date_trunc(hour, timestamp)];

我有如下的表格 |职位编号|时间戳 | avg_Tag_value | |:---- |:-------------------------------- | -------------- | | j1 | 2023-03-19T01:52:00.000+0000 | 0.4 ...

回答 2 投票 0

AWS Databricks 集群启动失败

我目前无法在我们的数据块 AWS 环境中启动任何集群。 当我尝试启动按需集群时,它会保持“挂起”状态 20 多分钟(在相对较小的情况下......

回答 2 投票 0

尝试将 pandas 数据框保存到数据块中的工作区目录时出现无效参数错误

我正在尝试将 pandas DataFrame 以 csv 格式保存到我在 Databricks 工作区中创建的目录中。 将熊猫导入为 pd df.to_csv("data.csv", index=False) 操作系统错误 ...

回答 0 投票 0

在分区之前对列进行排序是否有所不同

我想知道在分区之前订购数据帧是否会对计算速度/资源消耗产生影响。具体来说,我在 Databricks 中保存了镶木地板文件,我想...

回答 0 投票 0

底层方法抛出异常时的SparkStream

我有一个连续从 Kafka 读取的 spark readStream 函数。我对数据执行了一些操作,并想使用 Spark writeStream 将其批量写入 Cassandra DB。虽然一直

回答 1 投票 0

根据 ID 值范围对 ID 列进行分区

我有两张桌子;销售和客户。查询的主表是sales,但是有时候我们会想获取特定客户的数据,获取他的详细信息,所以就得加入

回答 2 投票 0

Databricks AnalysisException:“l”列不存在

由于数据敏感,此问题已被删除

回答 1 投票 0

Databricks 处理的文件

我目前正在数据块中设置数据管道。情况如下: 传入数据以 json 文件的形式出现。数据正在异步获取到文件存储。如果收到数据

回答 1 投票 0

python 文件在同一文件夹中时找不到模块错误

我目前在 Databricks 工作并尝试从 https://github.com/google/automl/tree/master/efficientdet#7-eval-on-coco-2017-val-or-test-dev 运行代码%5Befficientdet%5D(https://stackoverflo...

回答 2 投票 0

Pyspark:计算每行真值的数量

在数据块中工作,我有一个看起来像这样的数据框: 列 = ["a", "b", "c"] 数据 = [(真,真,真),(真,真,真),(真,假,真)] df = ...

回答 2 投票 0

MERGE 使用 Spark SQL 更新表的列

来自 MS SQL 背景,我正在尝试在 Spark SQL 中编写一个查询,它通过使用过滤器 INNER JOINing 新表 B 来简单地更新表 A(源表)的列值。 MS SQL 查询看起来 ...

回答 1 投票 0

无法使用 withColumn 将列添加到 Databricks 数据框,但模式反映了附加列

尝试在我的 databricks pyspark 数据框中添加额外的 2 列,但是当我从结果表中选择 * 时它没有显示。 对于 file_list 中的文件: 尝试: sql_query =

回答 0 投票 0

在 Databricks 中显示具有多个条件的表

我想在我的数据块数据库中找到满足多个条件的表。 Mysql 允许“where”子句包含多个条件,如本文所述。 在

回答 1 投票 0

数据块中的 Unity 目录不支持 Spark 命令

我的 Unity 目录已启用并在我的工作区中运行,我希望在“requestProjectUrlName”列之一上创建一个视图。我可以通过一个项目名称创建一个视图...

回答 1 投票 0

读取带有列值的 databricks json 是带有 Autoloader 和 inferschema 的 base64

我有两个字段落在我们的 blob 中的 JSON 文件: 偏移量(整数) 值(base64) 此值列是带有 unicode 的 JSON(这就是它采用 base64 编码的原因)。 { “偏移量”:1, &q...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.