有关Databricks统一分析平台的问题
如何在 Databricks AutoML Forecast 中包含额外的特征列?
我正在使用 Databricks AutoML 进行时间序列预测,我想在我的模型中包含额外的特征列以提高其性能。 databricks.au 中的可用参数...
我正在尝试使用以下命令在 databrick scala 中删除多个表 从 ABC 中选择 'DROP TABLE' + tableName where tableName LIKE 'in%' 错误结果说 SQL语句错误:
您可以在导入到数据块笔记本中的自定义 python 包中引用 spark 实例吗?
我想在导入到数据块笔记本中的 python 包中创建自定义连接器类。就像是: 类 snowflake_read(): def __init__(自我,格式,选项): ...
我有一个关于 Pyspark 写作的问题,我目前正在运行以下行: sat_prospect_credentials.write.format("delta").mode("append").save(f"{TABLE_MAP[table]...
Databricks - 识别给定模式中所有增量表并优化它的有效方法
我正在尝试在 Databricks 中创建一个笔记本,如果将 hive metastore 中的模式/数据库作为输入,那么我们应该能够遍历模式中的所有表,检查它是否...
我无法更新使用创建或替换的脚本 - '''' 创建或替换表 tablexxx; 如果不存在 tablexxx 使用 DELTA LOCATION '$datalake/location' 创建表; ''''
我正在将我的代码从 Pandas 移动到 Pypark 以执行 NLP 任务。我已经弄清楚如何通过 pandas UDF 应用标记化(使用 Keras 内置库)。不过,我也想把装好的代币还回去……
Databricks 上是否有一个函数可以类似于 Spark 的 display() 以交互方式显示 R 数据框?
在 Databricks 上,无论是使用 Python、SQL、SparkR 还是 PySpark 创建的数据框,都可以使用 display(df) 函数很好地交互显示。但是,基于 R 的 R 数据框不能...
非空表改表后是否可以恢复checkpoint位置的内容? 我正在使用 Databricks Autoloader 加载表格。我需要更新 o...的数据类型
是否可以在不影响检查点文件夹的情况下更新 Databricks 中非空表的架构(更改列的数据类型)(由流式自动加载器加载)? 有没有work-ar...
如何使用 Azure Databricks notebook 调用 google vision API 并提供保存在 json 文件中的 GCP 凭据?
我在 Azure 上有一个 Databricks 帐户,目标是通过相应的 API 调用与 Python 比较来自 Azure、GCP、AWS 的不同图像标记服务。我有 GCP vision API 的问题...
Spark 将列名作为值。我正在尝试从 Databricks 获取数据 我正在使用以下代码: val query="SELECT * FROM test1" val dataFrame = spark.read .format(&q...
MLflow 与 Azure ML 对比 Databricks
目前,我作为一名学生正在从事一个将 MLOps 集成到云中的项目。在这一点上,Azure ML 非常适合我工作的公司的职位和要求。但是,看到之后……
如何为regexp_replace函数的第二个参数指定不同的列?
我试图用“?”替换部分列文本。但是我得到了一个错误。 我想在 spark 中使用本机数据框。 类型错误:列不可迭代 数据 = [("李四", &q...
如何从 Databricks 工作区笔记本访问 Databricks 存储库中的函数/类?
我在 /Repos/[email protected]/repo-name/library' 中有一个 Databricks notebook,它定义了所有可重用的函数 类库(): def summary_test(自我): print('这是一个测试') ...
我们正在通过 Azure 管道运行 Terraform 以创建数据块工作区和相关资源,但是当 Terraform 的应用阶段进入获取最新版本的阶段时
我可以使用 SSMS 创建到 Databricks 的链接服务器连接吗?
我有一个 SQL Server,目前有一个链接服务器到 Oracle 数据库。 Oracle DB 正在迁移到 Azure Databricks。 我可以使用 SSMS 从我的 SQL Server 创建一个链接服务器来创建连接...
我在 Databricks 中有两个数据框:一个 parquet 文件和一个上传的 csv 数据框 在数据块中运行一个特定的 sql join 操作,我得到部分结果(~20% 的行被返回并且没有错误
如何为每个容器的 SAS 令牌访问实施 SASTokenProvider?
根据文档,您可以通过实现 org.apache.hadoop.fs.azurebfs.extensions.SASTokenProvider 接口,使用 SAS 令牌访问 Azure Data Lake Storage Gen2。 见
Databricks Autoloader 如何在微批中拆分数据?
基于此,Databricks Runtime >= 10.2 支持“availableNow”触发器,可用于以较小的不同微批次执行批处理,其大小可以是