有关Databricks统一分析平台的问题
我在 s3 中有管道分隔的 csv 文件,我正在尝试将其加载到 Databricks 中。当使用下面的代码读取时,文件被正确读取: df_test = Spark.read.option("标题", True).
我正在努力创建一个数据框,最终将输入到表格报告中。数据应该是从失败作业的 databricks 作业运行中提取的,并且还有......的原因
如何在databricks sql中将字符串数据类型转换为日期类型
我想将字符串数据类型转换为日期数据类型。 例如,字符串列 dob 类似于 12151987,我想将此列转换为日期数据类型,例如 1987 年 12 月 15 日。 我尝试过约会(dob...
如何将 Spark Dataframe 上传到 Azure 表存储?
是否可以使用Python基于Spark Dataframe在Azure表存储中创建表,有什么想法吗? 我在 Azure Databricks 工作,我尝试了多种替代方案来建立
如何按照使用 Databricks 写入的顺序从 avro 文件中读取记录?
我有一个包含许多记录的avro 文件。我想保持数据写入文件的顺序。我没有可以排序的财产可以给我这个。 如何读取数据
将 json 数组作为参数/变量从 databricks 传递到 ADF
我正在尝试将数据帧作为json从Databricks传递到Azure数据工厂。我用 对于 df.schema 中的列: df = df.withColumn(column.name, col(column.name).cast("string")) df = df.f...
TypeError 无法pickle _thread.luck 对象错误
我在 synapse 中使用 pyspark 创建数据框并使用用户定义的函数添加计算列。如果函数中存在任何问题,我需要记录该信息。然而我得到了
Databricks 使用来自 Secrets 的 sql jdbc 参数导致 ParseError
我有一些用于连接到外部数据库的数据块秘密。但是,我希望在 sql 单元格或 Spark.sql() 函数中使用秘密,这会导致 ParseError 我正在努力...
如何在不使用Databricks的情况下在SQL平台中使用Python库?
我开发了一个Python库,安装在Databricks集群上,用于在增量表上应用一些函数: 将库导入笔记本 从增量表中读取所需数据...
我正在尝试生成带有统一目录信息的 JSON。我想要的输出是: 表名:{ 第 1 列:{ 类型:列1类型 }, 第2列:{ 类型:column2类型 ...
我有一个交互式集群,其中连接的笔记本必须能够从 Unity Catalog 以及 DBFS 和 ADLS 读取/写入数据。我已将此集群设置为 USER_ISOLATION(共享模式)。 W...
Databricks 使用 AWS RDS,无需 JDBC/ODBC
我正在尝试在 databricks 上运行查询语句,以获取 RDS 实例作为源数据库。 我已经使用 jdbc 在 databricks python 笔记本中完成了它。然后使用 #我首先设定了...
如何在集群的 Spark 配置中运行代码。我尝试了几种设置来让 Python 设置默认数据库。想法是用户在编写 SQL 队列时不必指定数据库...
在 Databricks 工作时,我遇到了以下问题。看来,虽然我可以“删除”该表,但我无法创建具有相同名称的新表。我认为它是孤儿......
查询捕获的 avro 文件有效,同时创建外部表失败并出现错误 - 无法初始化存储帐户 XXXXX.dfs.core.windows.net 的配置:配置无效...
如何确定 Azure Data Lake 中文件夹和子目录中存储的数据的总存储大小?
我已将数据存储在Azure数据湖中的不同文件夹和子文件夹中。我想知道存储的数据大小。 下面是我们可以在 azure data bricks 中运行以重复运行的函数...
我试图将 StringType() 列转换为新的 DateType() 列,但它给我 NULL 作为输出。 样本数据集 获取输出如下: 输出 尝试了以下代码: Spark.sql("设置 sp...
在 databricks 中使用卷和外部位置 (abfss) 的操作系统库
我在 Databricks 中有几个使用操作系统库的进程,用于创建 txt 文件、检查目录等。 随着卷的到来和外部位置“abfss”的使用,安装
Spark 读取 403 错误,但 dbutils 在使用 Azure Blob 的 Databricks 中没有问题
在清除状态的全新集群重新启动时,所有内容都在同一笔记本单元内。 设置我的火花配置后: Spark.conf.set(..auth 类型) Spark.conf.set(...提供者类型) Spark.conf.set(令牌提供者...
将 Spark Dataframe 中 Array 类型的列中的空字符串替换为 None
假设您有一个如下所示的数据框: A栏 B栏 C栏 D 栏 '测试1' 7 ['','你好',''] ['','',0] ” 14 ['','',6,''] [98,0,'',9] 有没有办法替换所有...