databricks 相关问题

有关Databricks统一分析平台的问题

如何滚动 7 天的日期

我想创建一个 total_dose 变量,它继续将 dosage 变量中的值相加。一旦剂量达到 7 天,就会从 total_dose 变量中减去。 这个过程继续...

回答 4 投票 0

如何滚动 7 天的日期

我想创建一个 total_dose 变量,它继续将 dosage 变量中的值相加。 一旦剂量达到 7 天,就会从 total_dose 变量中减去。 这个过程继续...

回答 3 投票 0

如何在 Spark(Databricks) 中优化大分区数据表 write/parititonBy/?

我有数据/表/的业务需求,我正在从数据发布者的下游摄取。 它以 Parquet 的形式出现在 ADLS 存储中,作为宽表 - 大约 400 列,数据是

回答 0 投票 0

Autoloader Databricks 中的 FileDiscovery 用于流作业,Glob 模式不起作用

我有一个数据块流作业,它使用自动加载器进行文件发现,但问题是它无法根据我提供的 Glob 模式列出文件 现在我们

回答 0 投票 0

复制选定的文件(如果它们已更新)和文件夹结构

我正在尝试编写一个 python 程序,但不确定从哪里开始。 要求是编写一个代码,仅在...时复制选定的文件和选定的文件夹(以及所有子文件夹和文件)

回答 1 投票 0

DataBricks update_postimage 和 update_preimage 在更改数据馈送 (CDF) 中的位置

我对 update_preimage 和 update_postimage 在包含 CDF row_level 变化的表中的位置有疑问。 是否每个 update_preimage 都有它的 update_postimage right bel ...

回答 0 投票 0

在 Databricks (Pyspark) 中加载大型 CSV 文件

我需要加载一个大小为 500GB 的 CSV 文件。 spark.read.csv("文件.csv.gz") 需要几个小时。有没有办法加快速度?

回答 0 投票 0

为每个数据工程师提供一个专用的数据块开发环境

我对使用 Databricks 很陌生,我来自 SQL Server 平台,每个开发人员通常都有一个小型的本地开发环境,每个人都可以在其中部署代码...

回答 0 投票 0

如何使用增量实时表在数据块中创建管道以从 kafka 读取数据

从卡夫卡读到这个有效 raw_kafka_test = (spark.readStream .etc) @dlt.table( table_properties={"pipelines.reset.allowed":"false"}) def raw_kafka(): return raw_kafka_test ...

回答 0 投票 0

从网站提取数据

我尝试从 https://carboncredits.com/carbon-prices-today/ 网站提取基于自然的碳补偿图,但我可以找到获取数据的方法。 导入请求 从 bs4 导入 BeautifulSoup 进口

回答 0 投票 0

来自 JSON 对象的数据块/spark-sql 中的各个列

我正在使用数据块平台来处理 JSON 数据集。每个 JSON 看起来像这样: { “我”: { “国家代码”:123, “城市代码”:278, “参数”:...

回答 0 投票 0

pyspark 如何将字符串转换为日期格式

我的数据集中有一列,格式如下 2021 年 3 月 1 日星期一 13:23:06 +0000 我想将其转换为日期格式,如 yyyy-mm-dd。我尝试了以下解决方案,但日期 f...

回答 1 投票 0

如何在 Databrick SQL notebook 中使用 IpyWidget 值

我是 DataBrick 的初学者,我正在尝试创建一个具有 SQL 查询的笔记本。我想为我的查询使用两个输入参数,一个是简单文本,另一个是日期时间。 来自

回答 0 投票 0

在数据块增量实时表中解析下一个 json

第一个问题 => 我们可以通过 SQL notebook 解析嵌套的 JSON 并将其加载到增量实时表中吗? 第二个问题 => 我能够使用 python notebook 解析嵌套的 JSON 并能够打印...

回答 1 投票 0

使用 spark databricks 平台从 URL 读取数据

尝试使用 databricks 社区版平台上的 spark 从 url 读取数据 我尝试使用 spark.read.csv 并使用 SparkFiles 但仍然缺少一些简单的要点 url = "https://raw.

回答 2 投票 0

我们如何使用 gmail 从数据块向某些收件人发送电子邮件,并添加一些附件?

我正在使用 Databricks,我正在尝试弄清楚如何使用 Gmail 向某些收件人(可能是几个收件人)发送电子邮件。我在这里发布之前用谷歌搜索了这个。我找到了一些示例代码,如

回答 0 投票 0

加载模型时发生错误。没有名为“pandas.core.indexes.numeric”的模块。 Databricks 分类模型服务端点出错

我目前正在努力为 Azure Databricks 中的分类模型设置服务端点。 我已经针对几种不同的分类模型进行了尝试,例如以下示例 pr ...

回答 1 投票 0

Pyspark - 是否可以将 pyspark 数据框写入 Log Analytics 工作区中的自定义日志表

我有一个 pyspark 数据框,其中包含有关我在 sql 数据库中的表的信息(创建日期、行数等) 样本数据: { "日":"2023-04-28", ...

回答 0 投票 0

Databricks DBX 将参数传递给笔记本作业

对于 dbx databricks 的标准 deployment.yaml 文件,如下所示: 工作流程: - 名称:“您的工作名称” 工作集群: - job_cluster_key:“基本集群” ...

回答 0 投票 0

从字符串值评估日期格式

我有一个要求,如果归档值为“CAH132242F0A”,我必须提出一个日期。 所以这里“13”是年份,所以 yyyy =“2013”和“224”t ...

回答 5 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.