有关Databricks统一分析平台的问题
我正在使用 Databricks Autoloader 以流(微批量)模式处理文件。源文件采用.text 格式。虽然创建了检查点并且流没有失败,但 Delta ta...
我已将名为 ge_selection.csv 的文件上传到 Databricks 社区版中的“/FileStore/tables/”。 当我运行以下代码时,将显示 .csv 的内容: file_location = "/文件...
使用 databricks-sql-python 使用 pandas 进行高效 SQL 查询
Databricks 允许使用 databricks-sql-python 包通过 API 进行 SQL 查询。 有两种创建连接对象的方法,可以将其放入 pd.read_sql_query(sql, con=
使用 databricks 自动加载器处理 csv 时如何处理列名称中的无效字符?
我正在尝试设置 databricks 自动加载器流来读取大量 csv 文件,但是出现错误 在 " ,;{}() 中发现无效字符 = 在...的列名称中
项目被包装为DAB,所有工作流程都按照我设置运行,唯一的问题是我有一个具有不同规格的个人集群,但有时工作流程使用我的集群而不是创建...
从 VS Code 生成 Wheel 文件并将其部署到 Databricks 集群
我有一个场景,我需要生成版本化的 Wheel 文件并使用 VS Code 自动将其上传到 Databricks 集群,而不需要像 Databricks Bund 中那样创建工作流或作业...
Databricks Spark 是否在第一次读取后保留数据(在 Spark 缓存之外)
我一直在 Spark 中(特别是在 Databricks 中)努力理解一些事情,Spark 是否在第一次读取后保留数据(以某种不是缓存的存储格式)? 更具体地说,w...
我正在尝试使用 databricks cli 并调用 databricks 配置 这就是我从 cmd 执行此操作的方法 somepath>databricks 配置 --token Databricks 主机(应以 https:// 开头):
我正在使用databricks资产包,并且有很多有时间表的工作。 我想要一个禁用计划的目标,如下所示: 目标: 无时间表: 资源:
我正在使用 Databricks Academy 进行学习。 Databricks 附带存储在 adl 中的数据,供训练使用。 但数据似乎无法访问。我们收到错误: com.
业务需求是使用Databricks中的SQL将连续的周期折叠成1行。如果一行的结束日期比下一行的开始日期早一天,则这两行被视为 b...
Databricks 水印无法与 DataFrame.groupBy 一起使用
我们尝试在加入一对多关系时使用 DataFrame.groupBy() 。 @dlt.table(名称= silver_table_name) 定义银(): 约会Df = Spark.readStream.table(f"{bronze_catalo...
我有一个 json 结构,我试图使用 JSONPath 表达式来匹配所有 cpe_match 节点。 使用 databricks sql,我有以下查询,其中“nodes”包含我的 jso...
我有一个表 T1 包含两行,我想根据 cat_ids 的总数拆分行。 创建或替换临时视图 T1 作为 选择“ISAC”作为 CAT_ID、“STC-5-DM”作为 CAT_CD、3 作为 CAT_QTY
为什么即使合并没有更新任何内容,Databricks Delta 也会复制未修改的行?
当我运行以下查询时: 合并到 test_records t 使用 ( 从 test_records 中选择 id、“高级开发人员”头衔、国家/地区,其中国家/地区 = '巴西' )你 t.id = u.id 上 当匹配并且...
我们正在使用免费版本的表格编辑器(2.19)。 我们希望直接从 Azure Databricks 导入表。 在表格编辑器中我进入下面的界面 我已经添加了用户 DSN 和...
我们正在努力使环境更加安全,我已将专用端点添加到我的存储帐户中,该帐户是 Vnet-dev 的一部分。我的数据块没有注入 Vnet,但它有自己的 Workers-
我正在使用 Databricks Unity Catalog,我需要上传 CSV 文件、对其进行处理并将其加载到最终表中。但是,当在 Databricks 中上传文件时,它会转换 NULL 数据...
在 Pyspark 中将字典从一个笔记本传递到另一个笔记本时出现问题
我是 pyspark 的新手。我目前的项目需求是在Databricks中做ETL。我有一个 CSV 文件,其中有近 3 亿行,而这只是其中一个来源。将会有另外2个数据源...
如何在Databricks sql中将时间戳字符串转换为日期?
我知道这个问题已经被问过好几次了,我查阅/搜索了所提供的问题和答案。我还阅读了 databricks 文档并进行了多次尝试,但我只是没有得到所需的回复...