databricks 相关问题

有关Databricks统一分析平台的问题

在 vscode 中使用数据块扩展时，我的 kedro 输出在哪里

我正在使用 kedro 和 vscode 的数据块扩展来访问 Azure 上的数据块服务器。一切正常，但在本地执行文件时我看不到任何输出。的...

azure visual-studio-code databricks kedro

回答 0 投票 0

使用 Datafactory 中的 Init 脚本在 Databricks 集群上安装 Maven 库

我正在尝试使用 Azure 数据工厂在作业集群上执行 Databricks Notebook。 Notebook 需要安装一些 Maven 库。我正在尝试使用 i... 进行此安装

bash maven databricks azure-databricks

回答 0 投票 0

在 python 中的数据块笔记本中列出所有小部件（即使那些没有被覆盖）

我想获得笔记本中使用的小部件的完整列表（即使是那些没有被覆盖的小部件）。如果你直接运行笔记本，这个线程示例工作正常，但如果你运行你的笔记本，它就不会...

python databricks azure-databricks aws-databricks

回答 1 投票 0

对子目录中的 xml 文件使用 spark.read.from("xml").option("recursiveFileLookup", "true")

我想以递归方式将所有 xml 格式的文件加载到我的数据框中，该目录位于具有其他子目录的目录中。对于其他文件格式（txt、parquet、..），代码似乎...

xml apache-spark pyspark databricks

回答 0 投票 0

azure pyspark sql 中的 aws hive 虚拟列

我将 AWS 上的 hive sql 翻译成 azure synapse 上的 pyspark sql。 SQL 中有一些配置单元虚拟列，我想在 azure synapse 上转换为 pyspark sql。我怎样才能替换那些列？参考...

amazon-web-services azure databricks virtual-column

回答 0 投票 0

AnalysisException：无法解析给定输入列的“timestamp”：[date_trunc(hour, timestamp)];

我有如下的表格 |职位编号|时间戳 | avg_Tag_value | |:---- |:-------------------------------- | -------------- | | j1 | 2023-03-19T01:52:00.000+0000 | 0.4 ...

pyspark databricks azure-databricks

回答 2 投票 0

AWS Databricks 集群启动失败

我目前无法在我们的数据块 AWS 环境中启动任何集群。当我尝试启动按需集群时，它会保持“挂起”状态 20 多分钟（在相对较小的情况下......

databricks aws-databricks

回答 2 投票 0

尝试将 pandas 数据框保存到数据块中的工作区目录时出现无效参数错误

我正在尝试将 pandas DataFrame 以 csv 格式保存到我在 Databricks 工作区中创建的目录中。将熊猫导入为 pd df.to_csv("data.csv", index=False) 操作系统错误 ...

python pandas databricks

回答 0 投票 0

在分区之前对列进行排序是否有所不同

我想知道在分区之前订购数据帧是否会对计算速度/资源消耗产生影响。具体来说，我在 Databricks 中保存了镶木地板文件，我想...

apache-spark pyspark databricks partitioning database-partitioning

回答 0 投票 0

底层方法抛出异常时的SparkStream

我有一个连续从 Kafka 读取的 spark readStream 函数。我对数据执行了一些操作，并想使用 Spark writeStream 将其批量写入 Cassandra DB。虽然一直

apache-spark cassandra databricks spark-streaming spark-structured-streaming

回答 1 投票 0

根据 ID 值范围对 ID 列进行分区

我有两张桌子；销售和客户。查询的主表是sales，但是有时候我们会想获取特定客户的数据，获取他的详细信息，所以就得加入

apache-spark pyspark databricks partitioning

回答 2 投票 0

Databricks AnalysisException：“l”列不存在

由于数据敏感，此问题已被删除

databricks azure-databricks

回答 1 投票 0

Databricks 处理的文件

我目前正在数据块中设置数据管道。情况如下：传入数据以 json 文件的形式出现。数据正在异步获取到文件存储。如果收到数据

databricks pipeline databricks-autoloader

回答 1 投票 0

python 文件在同一文件夹中时找不到模块错误

我目前在 Databricks 工作并尝试从 https://github.com/google/automl/tree/master/efficientdet#7-eval-on-coco-2017-val-or-test-dev 运行代码%5Befficientdet%5D(https://stackoverflo...

python import databricks sys modulenotfounderror

回答 2 投票 0

Pyspark：计算每行真值的数量

在数据块中工作，我有一个看起来像这样的数据框：列 = ["a", "b", "c"] 数据 = [（真，真，真），（真，真，真），（真，假，真）] df = ...

python pyspark databricks azure-databricks

回答 2 投票 0

MERGE 使用 Spark SQL 更新表的列

来自 MS SQL 背景，我正在尝试在 Spark SQL 中编写一个查询，它通过使用过滤器 INNER JOINing 新表 B 来简单地更新表 A（源表）的列值。 MS SQL 查询看起来 ...

apache-spark pyspark apache-spark-sql databricks databricks-sql

回答 1 投票 0

无法使用 withColumn 将列添加到 Databricks 数据框，但模式反映了附加列

尝试在我的 databricks pyspark 数据框中添加额外的 2 列，但是当我从结果表中选择 * 时它没有显示。对于 file_list 中的文件：尝试： sql_query =

sql pyspark schema databricks

回答 0 投票 0

在 Databricks 中显示具有多个条件的表

我想在我的数据块数据库中找到满足多个条件的表。 Mysql 允许“where”子句包含多个条件，如本文所述。在

sql conditional-statements databricks aws-databricks

回答 1 投票 0

数据块中的 Unity 目录不支持 Spark 命令

我的 Unity 目录已启用并在我的工作区中运行，我希望在“requestProjectUrlName”列之一上创建一个视图。我可以通过一个项目名称创建一个视图...

pyspark databricks databricks-unity-catalog

回答 1 投票 0

读取带有列值的 databricks json 是带有 Autoloader 和 inferschema 的 base64

我有两个字段落在我们的 blob 中的 JSON 文件：偏移量（整数）值（base64）此值列是带有 unicode 的 JSON（这就是它采用 base64 编码的原因）。 { “偏移量”：1， &q...

databricks databricks-autoloader

回答 2 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.