有关Databricks统一分析平台的问题
在databricks上的python模块中导入dbutils包
在 Databricks Azure env 中执行笔记本,导入函数 从 pyspark.sql 导入 SparkSession 从 pyspark.dbutils 导入 DBUtils def myfunc(..., Spark: Sparksession): dbutils =
我正在尝试使用 Databricks 中的 dbx cli 部署新的工作流程,当我运行时: dbx 部署 new_workflow 我收到以下错误: 例外:提供的配置不基于...
at_lst = ['131','132','133'] at_tup = (*at_lst,) 打印(at_tup) ('131','132','133') 在我的 sql 查询中,我试图将其传递给参数,但是,它不起作用。 %%sql 从 main.s 中选择 *...
我正在尝试在 Azure Databricks 群集中安装 JAVA 库 (com.crealytics:spark-excel_2.12:3.4.1_0.19.0),但收到一条消息 “共享集群上的 Jars 和 Maven 库必须......
我使用 CSV 创建了一个外部表,如下所示。 创建外部表 OpenCSVSerde_CSV ( id STRING COMMENT '来自反序列化器', name STRING COMMENT '来自反序列化器' ) 使用 CSV 定位...
Databricks SQL 列表 2 个表之间的增量列名称
我正在尝试验证数据块中的表。 这些表是由 2 个不同的组创建的,但预计是相同的。 我只是想确认这一点。 我只是想看看是否有任何列不存在
在 Databricks Cluster 运行时版本 7.3 中使用 pip 安装转换缺少什么?
我需要振兴一个旧项目。为此,我需要创建 Cluster Runtime 版本 7.3,然后安装 python 库转换。 转换:https://pypi.org/project/transform/1.0.20/#hist...
AnalysisException:DELETE 条件不支持多列 In 谓词
我正在我的数据块代码中执行以下操作。该代码试图在对我来说很简单的条件下从我的表中删除一些行。 从日期时间导入日期时间,时间增量 今天 = 日期...
我有以下场景: 多个设备每天都会发送其安装的操作系统操作系统版本,无论版本是否发生变化。例如,在下面的表1中,Device_A发送...
我有一些增量格式文件需要定期优化。 根据此文档 write-conflicts-on-databricks,显式优化可能会在某些情况下导致冲突,例如更新。 同时,随着
将 Databricks 数据帧保存到我的 azure 存储帐户时遇到问题
我有一个 databricks 工作区,其中包含从第 2 代安装的 json 文件,我正在尝试将 json 文件转换为镶木地板并保存到我的存储帐户中,我在第 2 代中创建了一个新目录,其中...
在databricks中,我可以在会话级别设置配置变量,但在上下文变量中找不到它: Spark.conf.set(f"dataset.bookstore", '123') #dataset_bookstore Spark.conf.get(f&q...
我在 Azure databricks 笔记本中有这个 pyspark 脚本: 导入argparse 从 pyspark.sql.types 导入 StructType 从 pyspark.sql.types 导入 StringType 火花.conf.设置( “……
我正在尝试从句子转换器库加载模型。当我执行代码时,我得到这个输出。我们可以看到,进度条为 0%,命令已完成。我认为模式...
如何将 Apache Spark 中的远大期望结果保存到文件 - 使用数据文档
我已经成功创建了一个 Great_Expectation 结果,我想将期望结果输出到 html 文件。 很少有链接强调如何在人类阅读中显示结果......
我有一个存储为整数的年份列表,我试图找到最大元素及其索引。 lst = [2019, 2001, 2017, 2010, 2018, 2006, 2016, 2002, 2005, 2000, 2022, 2023, 2020, 2021, 2012] 瓦尔=...
通过 Python 的 Databricks 作业 API“必须指定运行设置”
在databricks中,我手动创建了一个执行多个子作业的DAG作业(任务类型运行作业)。当我手动运行它时,它运行良好,我可以看到它执行子作业以完成...
XGBoost 需要 int 或 float,而我实际上有 int 和 float [关闭]
我有以下数据: x_train 是 np.ndarray,y_train 是 np.ndarray,模型是 xgboost.sklearn.XGBClassifier。类型有: 打印(类型(x_train)) 打印(x_train.dtype) >> 我有以下数据: x_train 为 np.ndarray,y_train 为 np.ndarray,模型为 xgboost.sklearn.XGBClassifier。类型有: print(type(x_train)) print(x_train.dtype) >> <class 'numpy.ndarray'> >> float64 print(type(y_train)) print(y_train.dtype) >> <class 'numpy.ndarray'> >> float64 print(type(model)) >> xgboost.sklearn.XGBClassifier 我正在使用 Databricks Runtime 12.2 LTS ML,对应于 xgboost==1.7.2。 出现以下错误: model.fit(x_train, y_train) >> XGBoostError: [09:28:22] ../src/data/data.cc:254: All feature_types must be one of {int, float, i, q, c}. y_train 实际上是一个向量或 1 和 0,我也尝试过将其转换为 np.int32 或 np.int64。然后,我尝试将其投射到 builtins.int 和 builtins.float,如下所示: x_train = np.array(x_train, dtype=float) y_train = np.array(y_train, dtype=int) print(x_train.dtype) print(y_train.dtype) >>float64 >>int64 和以前一样的错误。 我已经检查了这篇post,但这对我没有帮助,因为我的类型不同。我不想从 numpy dtypes 进行转换,因为这些在过去已经工作过,并且我的配置文件是以这样的方式设置的.. 其他相关软件包:sklearn==0.0.post7 和 scikit-learn==1.0.2。您可以按如下方式重现错误: import numpy as np import xgboost as xgb params = {'base_score': 0.5, 'booster': 'gbtree', 'callbacks': 'null', 'colsample_bylevel': 1, 'colsample_bynode': 1, 'colsample_bytree': 1, 'early_stopping_rounds': 'null', 'enable_categorical': False, 'eval_metric': 'aucpr', 'feature_types': 'null', 'gamma': 7, 'gpu_id': -1, 'grow_policy': 'lossguide', 'importance_type': 'null', 'interaction_constraints': '', 'learning_rate': 0.05610004032698376, 'max_bin': 256, 'max_cat_threshold': 64, 'max_cat_to_onehot': 4, 'max_delta_step': 0, 'max_depth': 2, 'max_leaves': 0, 'min_child_weight': 1, 'monotone_constraints': (), 'n_estimators': 1275, 'n_jobs': 4, 'num_parallel_tree': 1, 'objective': 'binary:logistic', 'predictor': 'auto', 'random_state': 0, 'reg_alpha': 0, 'reg_lambda': 60, 'sampling_method': 'uniform', 'scale_pos_weight': 11.507905606798213, 'subsample': 1, 'tree_method': 'hist', 'use_label_encoder': False, 'validate_parameters': 1, 'verbosity': 0} model = xgb.XGBClassifier(**params) x = np.random.normal(0,1,(100,10)).astype(np.float64) y = np.random.uniform(0,1,100).astype(np.int64) model.fit(x,y) 我现在才注意到我正在强制 params 字典中的 feature_types 为 'null'... 您是否尝试过使用 float32 代替 float64 或 int32 代替 int64? 这对我有用😀
您可以将 Databricks 作业添加到 Git 存储库吗?
我正在尝试将 databricks 作业添加到 git 存储库。我看到您可以在作业中从 git 存储库运行笔记本,但我不知道该作业本身是否可以添加到 git 存储库中。
不同的存储路径取决于 Delta Live Tables 的结帐分支
如何根据我正在工作的分支更改存储位置。例如,我希望在我的功能分支上运行 DLT 管道时的存储位置不同于