databricks 相关问题

有关Databricks统一分析平台的问题






如何读取复杂的JSON文件并将其转换为字符串? 我正在Databricks工作,在那里我从S3读取JSON文件,需要将其转换为字符串。 JSON文件具有多层。对于演示,可以说看起来很像: { “ id”:...

{ "id": "123", "details":[ { "name": "Bob", "address": "123 street" }, { "name": "Amy", "address": "XYZ street" } ], "docType": "File", "collections": ["a","b","c"] }

回答 0 投票 0



函数访问而无需访问databricks

我在数据链球上创建了一个函数,以使用秘密来匿名PII数据。我想授予其他用户访问此功能,但我绝对不能直接访问SEC ...

回答 1 投票 0


databricks xpath_string不允许报价

在Microsoft Azure Databricks中,我的列包含XML字符串,我想拔出HREF,如果存在,则在该HREF中ltr __ :: URL。我尝试了: 选择Xpath_string(my_column,'string(// a ...

回答 1 投票 0

管道运行还不错;但是,由于Delta表是在源中的更新(GCP中的Delta共享),因此以下代码会出错,除非我重置检查点。我想知道是否在Delta共享中阅读Delta表,我可以保留检查点,以避免使用两次管道执行两次相同的数据。

com.databricks.sql.transaction.tahoe.deltaunsupportedoperationException: [delta_source_table_ignore_changes]检测到数据更新(用于 示例创建或替换表作为select(map(partitionby-> [],,, clusterby-> [],描述 - > null,iSmanaged--> true,属性 - > {“ delta.enabledeletionvectors”:“ true”},statsonload-> false))))) 版本8处的源表。目前不支持这。如果是 会定期发生,您可以跳过更改,设置 选项为“ true”。如果您想要数据 要反映的更新,请重新启动此查询 CheckPoint目录或使用DLT时进行完整刷新。如果你 需要处理这些更改,请切换到MVS。源表 可以在Path gs gs://databricks..

回答 1 投票 0

仅通过在Databricks NoteBook

from pyspark.sql import SparkSession from pyspark.sql.functions import * spark = SparkSession.builder.appName("uber_data_analysis").getOrCreate() df = spark.read.csv("/FileStore/tables/uber_data.csv", header = True, inferSchema = True)

回答 1 投票 0


databricksworkflowtaskgroup和Spark_jar task的模板任务参数

Task_group= databricksworkflowerator( group_id =“测试”, databricks_conn_id = dbx_conn_id, job_clusters = [ { “ job_cluster_key”:...

回答 1 投票 0

如何优雅地拆卸火花执行者

IAM使用df.cache()来cachce数据框架,并使用databricks以min实例为1和max实例自动化为8。但是,由于某些执行者在MIDD中死亡...

回答 1 投票 0

从delta表auto-refresh读取火花数据框?

特别是,我有一个带有HW信息的表,该表可以通过计划的作业定期更新,例如:

回答 1 投票 0

如何从Dev-env到test-env

I在Azure Dev-env中有一个表,我需要克隆或将其复制到test-subscription中。 可以使用哪种方法来做到这一点? 该桌子有20 000 000行。是导出dat的选项吗?

回答 1 投票 0

如何从Dev-env到test-env

I我需要在Azure Dev-env中创建一个克隆或在Test-Subscription中的test-env副本。 可以使用哪些方法来执行此操作? 该桌子有20 000 000行,是选择...

回答 1 投票 0

无需使用Databricks安装ADLS GEN 2 ABFSS存储帐户:IllegalargumentException:未支撑的Azure方案:ABFSS

当我尝试使用以下代码安装ADLS Gen Storage帐户时,我会收到错误: 非法玛格门张开:不支持的Azure方案:ABFSS container_name =“ mycontainer”

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.