databricks 相关问题

有关Databricks统一分析平台的问题

在Microsoft Azure Databricks中，我的列包含XML字符串，我想拔出HREF，如果存在，则在该HREF中ltr __ :: URL。我尝试了：选择Xpath_string（my_column，'string（// a ...

databricks azure-databricks databricks-sql

回答 1 投票 0

管道运行还不错；但是，由于Delta表是在源中的更新（GCP中的Delta共享），因此以下代码会出错，除非我重置检查点。我想知道是否在Delta共享中阅读Delta表，我可以保留检查点，以避免使用两次管道执行两次相同的数据。

com.databricks.sql.transaction.tahoe.deltaunsupportedoperationException： [delta_source_table_ignore_changes]检测到数据更新（用于示例创建或替换表作为select（map（partitionby-> []，，， clusterby-> []，描述 - > null，iSmanaged--> true，属性 - > {“ delta.enabledeletionvectors”：“ true”}，statsonload-> false）））））版本8处的源表。目前不支持这。如果是会定期发生，您可以跳过更改，设置选项为“ true”。如果您想要数据要反映的更新，请重新启动此查询 CheckPoint目录或使用DLT时进行完整刷新。如果你需要处理这些更改，请切换到MVS。源表可以在Path gs gs：//databricks..

databricks azure-databricks databricks-autoloader delta-sharing

回答 1 投票 0

仅通过在Databricks NoteBook

from pyspark.sql import SparkSession from pyspark.sql.functions import * spark = SparkSession.builder.appName("uber_data_analysis").getOrCreate() df = spark.read.csv("/FileStore/tables/uber_data.csv", header = True, inferSchema = True)

apache-spark pyspark databricks

回答 1 投票 0

databricks deltalake：无法时光旅行的三角洲表到版本1。可用版本：[3，23]

databricks azure-databricks delta-lake timedelta

回答 1 投票 0

databricksworkflowtaskgroup和Spark_jar task的模板任务参数

Task_group= databricksworkflowerator（ group_id =“测试”， databricks_conn_id = dbx_conn_id， job_clusters = [ { “ job_cluster_key”：...

airflow databricks azure-databricks

回答 1 投票 0

如何优雅地拆卸火花执行者

IAM使用df.cache（）来cachce数据框架，并使用databricks以min实例为1和max实例自动化为8。但是，由于某些执行者在MIDD中死亡...

dataframe apache-spark databricks executor

回答 1 投票 0

从delta表auto-refresh读取火花数据框？

特别是，我有一个带有HW信息的表，该表可以通过计划的作业定期更新，例如：

scala databricks spark-streaming azure-databricks

回答 1 投票 0

如何从Dev-env到test-env

I在Azure Dev-env中有一个表，我需要克隆或将其复制到test-subscription中。可以使用哪种方法来做到这一点？该桌子有20 000 000行。是导出dat的选项吗？

sql azure pyspark hive databricks

回答 1 投票 0

如何从Dev-env到test-env

I我需要在Azure Dev-env中创建一个克隆或在Test-Subscription中的test-env副本。可以使用哪些方法来执行此操作？该桌子有20 000 000行，是选择...

sql azure pyspark hive databricks

回答 1 投票 0

无需使用Databricks安装ADLS GEN 2 ABFSS存储帐户：IllegalargumentException：未支撑的Azure方案：ABFSS

当我尝试使用以下代码安装ADLS Gen Storage帐户时，我会收到错误：非法玛格门张开：不支持的Azure方案：ABFSS container_name =“ mycontainer”

databricks azure-databricks

回答 1 投票 0

我正面临着Azure Databricks和Kafka集成的问题。我想设置一个ReadStream，但会收到以下错误：

azure apache-spark apache-kafka databricks confluent-platform

回答 0 投票 0

为fs.azure.account.key with com.com.crelytics检测到的invalid配置值：spark-excel

我已经设置了我的数据链条笔记本，以使用服务主体使用以下配置来访问ADL。 service_credential = dbutils.secrets.get（scope =“”，key =“” 我已经设置了我的databricks笔记本，以使用服务主体使用以下配置访问ADL。 service_credential = dbutils.secrets.get(scope="<scope>",key="<service-credential-key>") spark.conf.set("fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net", "OAuth") spark.conf.set("fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider") spark.conf.set("fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net", "<application-id>") spark.conf.set("fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net", service_credential) spark.conf.set("fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net", "https://login.microsoftonline.com/<directory-id>/oauth2/token") 我可以从ADL读取CSV文件，但是使用Excel文件获取Invalid configuration value detected for fs.azure.account.key。以下是读取Excel文件的代码。 #library used com.crealytics:spark-excel_2.12:3.2.2_0.18.0 df = spark.read.format("com.crealytics.spark.excel") \ .option("header", "true") \ .option("dataAddress", "'Sheet1'!A1:BA100000")\ .option("delimiter", ",") \ .option("inferSchema", "true") \ .option("multiline", "true") \ .load(file_path_full) 堆栈跟踪 Failure to initialize configurationInvalid configuration value detected for fs.azure.account.key at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.services.SimpleKeyProvider.getStorageAccountKey(SimpleKeyProvider.java:51) at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.AbfsConfiguration.getStorageAccountKey(AbfsConfiguration.java:577) at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.AzureBlobFileSystemStore.initializeClient(AzureBlobFileSystemStore.java:1832) at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.AzureBlobFileSystemStore.<init>(AzureBlobFileSystemStore.java:224) at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.AzureBlobFileSystem.initialize(AzureBlobFileSystem.java:142) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3469) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:537) at com.crealytics.spark.excel.WorkbookReader$.readFromHadoop$1(WorkbookReader.scala:60) at com.crealytics.spark.excel.WorkbookReader$.$anonfun$apply$4(WorkbookReader.scala:79) at com.crealytics.spark.excel.DefaultWorkbookReader.$anonfun$openWorkbook$3(WorkbookReader.scala:102) at scala.Option.fold(Option.scala:251) at com.crealytics.spark.excel.DefaultWorkbookReader.openWorkbook(WorkbookReader.scala:102) at com.crealytics.spark.excel.WorkbookReader.withWorkbook(WorkbookReader.scala:33) at com.crealytics.spark.excel.WorkbookReader.withWorkbook$(WorkbookReader.scala:32) at com.crealytics.spark.excel.DefaultWorkbookReader.withWorkbook(WorkbookReader.scala:87) at com.crealytics.spark.excel.ExcelRelation.excerpt$lzycompute(ExcelRelation.scala:48) at com.crealytics.spark.excel.ExcelRelation.excerpt(ExcelRelation.scala:48) at com.crealytics.spark.excel.ExcelRelation.headerColumns$lzycompute(ExcelRelation.scala:121) at com.crealytics.spark.excel.ExcelRelation.headerColumns(ExcelRelation.scala:120) at com.crealytics.spark.excel.ExcelRelation.$anonfun$inferSchema$1(ExcelRelation.scala:189) at scala.Option.getOrElse(Option.scala:189) at com.crealytics.spark.excel.ExcelRelation.inferSchema(ExcelRelation.scala:188) at com.crealytics.spark.excel.ExcelRelation.<init>(ExcelRelation.scala:52) at com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:52) at com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:29) at com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:24) at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:385) at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:356) at org.apache.spark.sql.DataFrameReader.$anonfun$load$2(DataFrameReader.scala:323) at scala.Option.getOrElse(Option.scala:189) at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:323) at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:236) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:380) at py4j.Gateway.invoke(Gateway.java:295) at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) at py4j.commands.CallCommand.execute(CallCommand.java:79) at py4j.GatewayConnection.run(GatewayConnection.java:251) at java.lang.Thread.run(Thread.java:748) Caused by: Invalid configuration value detected for fs.azure.account.key at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.diagnostics.ConfigurationBasicValidator.validate(ConfigurationBasicValidator.java:49) at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.diagnostics.Base64StringConfigurationBasicValidator.validate(Base64StringConfigurationBasicValidator.java:40) at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.services.SimpleKeyProvider.validateStorageAccountKey(SimpleKeyProvider.java:70) at shaded.databricks.azurebfs.org.apache.hadoop.fs.azurebfs.services.SimpleKeyProvider.getStorageAccountKey(SimpleKeyProvider.java:49) ... 42 more ，找到了解决方案。还需要添加以下配置。 spark._jsc.hadoopConfiguration().set("fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net", "OAuth") spark._jsc.hadoopConfiguration().set("fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider") spark._jsc.hadoopConfiguration().set("fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net", "<application-id>") spark._jsc.hadoopConfiguration().set("fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net", service_credential) spark._jsc.hadoopConfiguration().set("fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net", "https://login.microsoftonline.com/<directory-id>/oauth2/token")

azure maven databricks azure-databricks maven-exec-plugin

回答 1 投票 0

不可能访问数据磁计帐户控制台是Azure Global Administrator

azure databricks azure-databricks

回答 1 投票 0

可以将数据键盘输出作为我的数据源在Power BI中？我想知道是否可以将Databricks笔记本电脑输出用作我的数据源。我不想先将其导出到CSV。我尝试从POW ...

pyspark powerbi databricks spark-notebook

回答 0 投票 0

创建或替换databricks中的表返回delta_create_table_with_non_empty_location错误

试图在Databricks中创建表格创建或替换表foo.bar（评论varchar（255）， row_count int，日期时间戳）返回以下错误 [

sql databricks azure-databricks

回答 1 投票 0