有关Databricks统一分析平台的问题
我在 Athena 中有一个分区表。该表每 5 分钟提取一次数据。这让我每天在一个分区中摄取大约 288 个文件。在第 + 1 天,我运行了一个过程来 coa...
Databricks 中的 ThreadPoolExecutor 和驱动程序节点内存问题
我正在使用线程池执行器并并行运行笔记本。然而,这些并行笔记本根本不使用执行器,所有负载都流向驱动程序节点,导致 r ...
如何从 Databricks SQL 中复杂的数组集中提取数据?
我一直在尝试从数组集合中导出我需要的数据。所以简而言之,我在另一个数组中有十几个数组。所以基本结构如下所示: id 示例(她...
我正在尝试编写一些自定义类来使用 Databricks 上现有的 MLlib 代码库和 MLflow。 例如,编写转换器、估算器或扩展现有的 MLlib 类并能够...
DLT 流错误 - 必须使用 writeStream.start() 执行流源查询;
我正在尝试使用 Delta Live Tables 解析数据块中传入的可变长度流记录。我收到错误: 必须使用 writeStream.start() 执行带有流源的查询;
无法验证外部位置,因为远程服务器返回错误:(401)未经授权。 Databricks 中的错误
我在 Synapse 专用 SQL 池中创建了一个存储过程,以将数据从外部表(指向数据湖中的 Parquet 文件)加载到同一专用 SQL 池中的托管表。我是……
使用 Spark streaming + Kafka 时如何修复过期批次?
我正在尝试使用 foreachBatch() 从 kafka 主题读取数据,如下所示。 def write_stream_batches(spark: SparkSession, kafka_df: DataFrame, checkpoint_location: str, kafkaconfig: dict): 问题...
Databricks 作业在从 adf 调用时失败并出现错误:org.apache.spark.SparkException:作业中止。 错误详情: 引起:org.apache.spark.memory.SparkOutOfMemoryError:无法
我们如何查看 [DataBricks] 增量表的列名和其他元数据?
Spark DataFrame 具有 .columns 属性: dataFrame.columns DeltaTable 没有。请注意,后者基于 parquet 文件/目录,而 parquets 是自描述的,因此柱状 in...
在 Spark Streaming 中使用 UDF 读取大量 XML 到 Delta 表非常慢
我们有一个输入文件的存储库,如 �3 \*\*Events*.xml => 这表示需要在 Spark Structured Streaming 中读取的输入 XML 文件的路径,以便...
我的场景是: 我正在通过以下方式从另一个笔记本中运行一个数据块笔记本: dbutils.notebooks.run(...) 此笔记本可能会失败并引发 Py4JJavaError。 我的问题是: 如何访问
如何在Databricks SQL端点传递Databricks参数值中的多个值?
Ex 1:- select * from test_db.Emp where empid in (1,2) 结果:- |就业编号 |企业名称| | 1 |拉惹 | | 2 |拉尼| Ex 2:- select * from test_db.Emp where empid in ({{EmpId}}) 参数传递值 ...
我在数据框中有一列有这样的字符串日期: 日期 '2022 年 4 月 7 日凌晨 12:00' '2022 年 4 月 17 日凌晨 12:00' 我想将其转换为日期列并期望这样: 日期 2022-04-07 2022-04-17 我...
使用 pandas(和一些 pyspark),我在 csv 的一行中提取了一个值 (x),并使用该值创建了 x 行。 我使用 pyspark 在数据块中完成了此操作。不是问题只是想我会...
使用 https://github.com/sutugin/spark-streaming-jdbc-source 中的示例 我试图连接到 Postgres 数据库作为 AWS Databricks 中的流媒体源。 我有一个正在运行的集群: 11....
我需要从 Azure Databricks 笔记本访问我的 Azure 存储帐户。 从身份验证方面,所有依赖于密钥的方法(SAS,基于密钥的身份验证)都有效,但我们无法公开 Access
在 Databrick Notebook 中,我想知道哪个文件触发了管道。 我已经准备好 Azure 数据工厂管道。它有基于 blob 事件的触发器,它运行 databricks notebook。 在数据块中
DataBricks社区版提供的Spark集群与Spark中提到的Master = local[8}的区别?
我正在使用 DataBricks Community Edition,我的笔记本运行的集群显示: 它有一个带 15 GB 内存和 2 个内核的驱动程序。 而当我在我的 no 中获得 Spark 配置时...
使用 toTable 在 Databricks 中写入流不会执行 foreachBatch
下面的代码正常工作,即将数据写入输出表,并可在 10 秒内从表中选择。问题是 foreachBatch 没有被执行。 当我有...
使用 JDBC 连接到 databrick 默认集群并将表读入 pyspark 数据帧。所有列变成与列名相同
我有表存储在数据块集群默认数据库中。 我的表 2: 我使用如下代码使用 JDBC 连接到数据块默认集群并将表读入 pyspark 数据帧 url = 'jdbc:data...