databricks 相关问题

有关Databricks统一分析平台的问题

在 Databricks Azure env 中执行笔记本，导入函数从 pyspark.sql 导入 SparkSession 从 pyspark.dbutils 导入 DBUtils def myfunc(..., Spark: Sparksession): dbutils =

azure pyspark databricks azure-databricks dbutils

回答 1 投票 0

Databricks dbx 部署错误与身份验证令牌

我正在尝试使用 Databricks 中的 dbx cli 部署新的工作流程，当我运行时： dbx 部署 new_workflow 我收到以下错误：例外：提供的配置不基于...

databricks azure-databricks databricks-dbx

回答 1 投票 0

将元组作为参数传递给sql查询

at_lst = ['131','132','133'] at_tup = (*at_lst,) 打印（at_tup） ('131','132','133') 在我的 sql 查询中，我试图将其传递给参数，但是，它不起作用。 %%sql 从 main.s 中选择 *...

python sql jupyter-notebook databricks

回答 1 投票 0

Databricks 工件允许列表 - 如何找到它？

我正在尝试在 Azure Databricks 群集中安装 JAVA 库 (com.crealytics:spark-excel_2.12:3.4.1_0.19.0)，但收到一条消息 “共享集群上的 Jars 和 Maven 库必须......

java cloud databricks

回答 1 投票 0

带有 CSV 的外部表未自动刷新

我使用 CSV 创建了一个外部表，如下所示。创建外部表 OpenCSVSerde_CSV ( id STRING COMMENT '来自反序列化器', name STRING COMMENT '来自反序列化器' ）使用 CSV 定位...

hive databricks azure-databricks databricks-unity-catalog

回答 1 投票 0

Databricks SQL 列表 2 个表之间的增量列名称

我正在尝试验证数据块中的表。这些表是由 2 个不同的组创建的，但预计是相同的。我只是想确认这一点。我只是想看看是否有任何列不存在

apache-spark databricks databricks-sql

回答 1 投票 0

在 Databricks Cluster 运行时版本 7.3 中使用 pip 安装转换缺少什么？

我需要振兴一个旧项目。为此，我需要创建 Cluster Runtime 版本 7.3，然后安装 python 库转换。转换：https://pypi.org/project/transform/1.0.20/#hist...

python pip databricks azure-databricks

回答 1 投票 0

AnalysisException：DELETE 条件不支持多列 In 谓词

我正在我的数据块代码中执行以下操作。该代码试图在对我来说很简单的条件下从我的表中删除一些行。从日期时间导入日期时间，时间增量今天 = 日期...

sql databricks databricks-sql

回答 2 投票 0

将重复值转换为 Databricks 中的间隔

我有以下场景：多个设备每天都会发送其安装的操作系统操作系统版本，无论版本是否发生变化。例如，在下面的表1中，Device_A发送...

pyspark databricks azure-databricks databricks-sql

回答 1 投票 0

Delta表优化手册VS.自动

我有一些增量格式文件需要定期优化。根据此文档 write-conflicts-on-databricks，显式优化可能会在某些情况下导致冲突，例如更新。同时，随着

databricks azure-databricks delta-lake

回答 1 投票 0

将 Databricks 数据帧保存到我的 azure 存储帐户时遇到问题

我有一个 databricks 工作区，其中包含从第 2 代安装的 json 文件，我正在尝试将 json 文件转换为镶木地板并保存到我的存储帐户中，我在第 2 代中创建了一个新目录，其中...

python azure databricks

回答 1 投票 0

如何检索所有 Spark 会话配置变量

在databricks中，我可以在会话级别设置配置变量，但在上下文变量中找不到它： Spark.conf.set(f"dataset.bookstore", '123') #dataset_bookstore Spark.conf.get(f&q...

python apache-spark databricks

回答 1 投票 0

Azure databricks 数据帧计数生成错误 com.databricks.sql.io.FileReadException：读取文件 abfss 时出错：REDACTED_LOCAL_PART

我在 Azure databricks 笔记本中有这个 pyspark 脚本：导入argparse 从 pyspark.sql.types 导入 StructType 从 pyspark.sql.types 导入 StringType 火花.conf.设置( “……

databricks azure-databricks

回答 3 投票 0

图书馆造句-变形金刚

我正在尝试从句子转换器库加载模型。当我执行代码时，我得到这个输出。我们可以看到，进度条为 0%，命令已完成。我认为模式...

python nlp model databricks sentence-transformers

回答 1 投票 0

如何将 Apache Spark 中的远大期望结果保存到文件 - 使用数据文档

我已经成功创建了一个 Great_Expectation 结果，我想将期望结果输出到 html 文件。很少有链接强调如何在人类阅读中显示结果......

apache-spark pyspark databricks azure-databricks great-expectations

回答 2 投票 0

max(list) 错误：参数无效，不是字符串或列

我有一个存储为整数的年份列表，我试图找到最大元素及其索引。 lst = [2019, 2001, 2017, 2010, 2018, 2006, 2016, 2002, 2005, 2000, 2022, 2023, 2020, 2021, 2012] 瓦尔=...

python list databricks

回答 1 投票 0

通过 Python 的 Databricks 作业 API“必须指定运行设置”

在databricks中，我手动创建了一个执行多个子作业的DAG作业（任务类型运行作业）。当我手动运行它时，它运行良好，我可以看到它执行子作业以完成...

api databricks directed-acyclic-graphs aws-databricks

回答 1 投票 0

XGBoost 需要 int 或 float，而我实际上有 int 和 float [关闭]

我有以下数据： x_train 是 np.ndarray，y_train 是 np.ndarray，模型是 xgboost.sklearn.XGBClassifier。类型有：打印（类型（x_train））打印（x_train.dtype） >> 我有以下数据： x_train 为 np.ndarray，y_train 为 np.ndarray，模型为 xgboost.sklearn.XGBClassifier。类型有： print(type(x_train)) print(x_train.dtype) >> <class 'numpy.ndarray'> >> float64 print(type(y_train)) print(y_train.dtype) >> <class 'numpy.ndarray'> >> float64 print(type(model)) >> xgboost.sklearn.XGBClassifier 我正在使用 Databricks Runtime 12.2 LTS ML，对应于 xgboost==1.7.2。出现以下错误： model.fit(x_train, y_train) >> XGBoostError: [09:28:22] ../src/data/data.cc:254: All feature_types must be one of {int, float, i, q, c}. y_train 实际上是一个向量或 1 和 0，我也尝试过将其转换为 np.int32 或 np.int64。然后，我尝试将其投射到 builtins.int 和 builtins.float，如下所示： x_train = np.array(x_train, dtype=float) y_train = np.array(y_train, dtype=int) print(x_train.dtype) print(y_train.dtype) >>float64 >>int64 和以前一样的错误。我已经检查了这篇post，但这对我没有帮助，因为我的类型不同。我不想从 numpy dtypes 进行转换，因为这些在过去已经工作过，并且我的配置文件是以这样的方式设置的.. 其他相关软件包：sklearn==0.0.post7 和 scikit-learn==1.0.2。您可以按如下方式重现错误： import numpy as np import xgboost as xgb params = {'base_score': 0.5, 'booster': 'gbtree', 'callbacks': 'null', 'colsample_bylevel': 1, 'colsample_bynode': 1, 'colsample_bytree': 1, 'early_stopping_rounds': 'null', 'enable_categorical': False, 'eval_metric': 'aucpr', 'feature_types': 'null', 'gamma': 7, 'gpu_id': -1, 'grow_policy': 'lossguide', 'importance_type': 'null', 'interaction_constraints': '', 'learning_rate': 0.05610004032698376, 'max_bin': 256, 'max_cat_threshold': 64, 'max_cat_to_onehot': 4, 'max_delta_step': 0, 'max_depth': 2, 'max_leaves': 0, 'min_child_weight': 1, 'monotone_constraints': (), 'n_estimators': 1275, 'n_jobs': 4, 'num_parallel_tree': 1, 'objective': 'binary:logistic', 'predictor': 'auto', 'random_state': 0, 'reg_alpha': 0, 'reg_lambda': 60, 'sampling_method': 'uniform', 'scale_pos_weight': 11.507905606798213, 'subsample': 1, 'tree_method': 'hist', 'use_label_encoder': False, 'validate_parameters': 1, 'verbosity': 0} model = xgb.XGBClassifier(**params) x = np.random.normal(0,1,(100,10)).astype(np.float64) y = np.random.uniform(0,1,100).astype(np.int64) model.fit(x,y) 我现在才注意到我正在强制 params 字典中的 feature_types 为 'null'... 您是否尝试过使用 float32 代替 float64 或 int32 代替 int64？这对我有用😀

python databricks xgboost

回答 1 投票 0

您可以将 Databricks 作业添加到 Git 存储库吗？

我正在尝试将 databricks 作业添加到 git 存储库。我看到您可以在作业中从 git 存储库运行笔记本，但我不知道该作业本身是否可以添加到 git 存储库中。

git databricks

回答 2 投票 0

不同的存储路径取决于 Delta Live Tables 的结帐分支

如何根据我正在工作的分支更改存储位置。例如，我希望在我的功能分支上运行 DLT 管道时的存储位置不同于

databricks delta-live-tables

回答 1 投票 0

databricks 相关问题

最新问题