databricks 相关问题

我正在尝试使用 foreachBatch() 从 kafka 主题读取数据，如下所示。 def write_stream_batches(spark: SparkSession, kafka_df: DataFrame, checkpoint_location: str, kafkaconfig: dict): 问题...

python apache-spark apache-kafka databricks spark-structured-streaming

回答 1 投票 0

作业在通过 ADF 触发时中止

Databricks 作业在从 adf 调用时失败并出现错误：org.apache.spark.SparkException：作业中止。错误详情：引起：org.apache.spark.memory.SparkOutOfMemoryError：无法

azure azure-data-factory databricks

回答 1 投票 0

我们如何查看 [DataBricks] 增量表的列名和其他元数据？

Spark DataFrame 具有 .columns 属性： dataFrame.columns DeltaTable 没有。请注意，后者基于 parquet 文件/目录，而 parquets 是自描述的，因此柱状 in...

databricks delta-lake

回答 2 投票 0

在 Spark Streaming 中使用 UDF 读取大量 XML 到 Delta 表非常慢

我们有一个输入文件的存储库，如 �3 \*\*Events*.xml => 这表示需要在 Spark Structured Streaming 中读取的输入 XML 文件的路径，以便...

apache-spark databricks spark-streaming spark-structured-streaming

回答 0 投票 0

访问 Azure 数据块笔记本中的“标题”

我的场景是：我正在通过以下方式从另一个笔记本中运行一个数据块笔记本： dbutils.notebooks.run(...) 此笔记本可能会失败并引发 Py4JJavaError。我的问题是：如何访问

python azure exception jupyter-notebook databricks

回答 0 投票 0

如何在Databricks SQL端点传递Databricks参数值中的多个值？

Ex 1:- select * from test_db.Emp where empid in (1,2) 结果：- |就业编号 |企业名称| | 1 |拉惹 | | 2 |拉尼| Ex 2:- select * from test_db.Emp where empid in ({{EmpId}}) 参数传递值 ...

parameter-passing databricks azure-databricks databricks-sql

回答 0 投票 0

在 pyspark 中将字符串日期转换为日期

我在数据框中有一列有这样的字符串日期：日期 '2022 年 4 月 7 日凌晨 12:00' '2022 年 4 月 17 日凌晨 12:00' 我想将其转换为日期列并期望这样：日期 2022-04-07 2022-04-17 我...

dataframe date pyspark databricks

回答 1 投票 0

根据 pandas 中的行值创建 x 列数

使用 pandas（和一些 pyspark），我在 csv 的一行中提取了一个值 (x)，并使用该值创建了 x 行。我使用 pyspark 在数据块中完成了此操作。不是问题只是想我会...

pandas pyspark databricks multiple-columns

回答 0 投票 0

如何连接到 jdbc 作为 Databricks 中的流源

使用 https://github.com/sutugin/spark-streaming-jdbc-source 中的示例我试图连接到 Postgres 数据库作为 AWS Databricks 中的流媒体源。我有一个正在运行的集群： 11....

scala jdbc databricks spark-streaming aws-databricks

回答 1 投票 0

Azure 数据块到 Azure 存储帐户的身份验证

我需要从 Azure Databricks 笔记本访问我的 Azure 存储帐户。从身份验证方面，所有依赖于密钥的方法（SAS，基于密钥的身份验证）都有效，但我们无法公开 Access

databricks azure-databricks azure-data-lake-gen2 azure-authentication azure-storage-account

回答 2 投票 0

如何在 Azure 数据工厂中将触发器参数传递给笔记本

在 Databrick Notebook 中，我想知道哪个文件触发了管道。我已经准备好 Azure 数据工厂管道。它有基于 blob 事件的触发器，它运行 databricks notebook。在数据块中

azure azure-data-factory databricks

回答 1 投票 0

DataBricks社区版提供的Spark集群与Spark中提到的Master = local[8}的区别？

我正在使用 DataBricks Community Edition，我的笔记本运行的集群显示：它有一个带 15 GB 内存和 2 个内核的驱动程序。而当我在我的 no 中获得 Spark 配置时...

apache-spark pyspark databricks cluster-computing

回答 0 投票 0

使用 toTable 在 Databricks 中写入流不会执行 foreachBatch

下面的代码正常工作，即将数据写入输出表，并可在 10 秒内从表中选择。问题是 foreachBatch 没有被执行。当我有...

databricks spark-streaming azure-databricks spark-structured-streaming delta-lake

回答 1 投票 0

使用 JDBC 连接到 databrick 默认集群并将表读入 pyspark 数据帧。所有列变成与列名相同

我有表存储在数据块集群默认数据库中。我的表 2：我使用如下代码使用 JDBC 连接到数据块默认集群并将表读入 pyspark 数据帧 url = 'jdbc:data...

dataframe azure pyspark jdbc databricks

回答 1 投票 0

databricks 相关问题

最新问题