databricks 相关问题

有关Databricks统一分析平台的问题

XGBoost 需要 int 或 float,而我实际上有 int 和 float [关闭]

我有以下数据: x_train 是 np.ndarray,y_train 是 np.ndarray,模型是 xgboost.sklearn.XGBClassifier。类型有: 打印(类型(x_train)) 打印(x_train.dtype) >> 我有以下数据: x_train 为 np.ndarray,y_train 为 np.ndarray,模型为 xgboost.sklearn.XGBClassifier。类型有: print(type(x_train)) print(x_train.dtype) >> <class 'numpy.ndarray'> >> float64 print(type(y_train)) print(y_train.dtype) >> <class 'numpy.ndarray'> >> float64 print(type(model)) >> xgboost.sklearn.XGBClassifier 我正在使用 Databricks Runtime 12.2 LTS ML,对应于 xgboost==1.7.2。 出现以下错误: model.fit(x_train, y_train) >> XGBoostError: [09:28:22] ../src/data/data.cc:254: All feature_types must be one of {int, float, i, q, c}. y_train 实际上是一个向量或 1 和 0,我也尝试过将其转换为 np.int32 或 np.int64。然后,我尝试将其投射到 builtins.int 和 builtins.float,如下所示: x_train = np.array(x_train, dtype=float) y_train = np.array(y_train, dtype=int) print(x_train.dtype) print(y_train.dtype) >>float64 >>int64 和以前一样的错误。 我已经检查了这篇post,但这对我没有帮助,因为我的类型不同。我不想从 numpy dtypes 进行转换,因为这些在过去已经工作过,并且我的配置文件是以这样的方式设置的.. 其他相关软件包:sklearn==0.0.post7 和 scikit-learn==1.0.2。您可以按如下方式重现错误: import numpy as np import xgboost as xgb params = {'base_score': 0.5, 'booster': 'gbtree', 'callbacks': 'null', 'colsample_bylevel': 1, 'colsample_bynode': 1, 'colsample_bytree': 1, 'early_stopping_rounds': 'null', 'enable_categorical': False, 'eval_metric': 'aucpr', 'feature_types': 'null', 'gamma': 7, 'gpu_id': -1, 'grow_policy': 'lossguide', 'importance_type': 'null', 'interaction_constraints': '', 'learning_rate': 0.05610004032698376, 'max_bin': 256, 'max_cat_threshold': 64, 'max_cat_to_onehot': 4, 'max_delta_step': 0, 'max_depth': 2, 'max_leaves': 0, 'min_child_weight': 1, 'monotone_constraints': (), 'n_estimators': 1275, 'n_jobs': 4, 'num_parallel_tree': 1, 'objective': 'binary:logistic', 'predictor': 'auto', 'random_state': 0, 'reg_alpha': 0, 'reg_lambda': 60, 'sampling_method': 'uniform', 'scale_pos_weight': 11.507905606798213, 'subsample': 1, 'tree_method': 'hist', 'use_label_encoder': False, 'validate_parameters': 1, 'verbosity': 0} model = xgb.XGBClassifier(**params) x = np.random.normal(0,1,(100,10)).astype(np.float64) y = np.random.uniform(0,1,100).astype(np.int64) model.fit(x,y) 我现在才注意到我正在强制 params 字典中的 feature_types 为 'null'... 您是否尝试过使用 float32 代替 float64 或 int32 代替 int64? 这对我有用😀

回答 1 投票 0

您可以将 Databricks 作业添加到 Git 存储库吗?

我正在尝试将 databricks 作业添加到 git 存储库。我看到您可以在作业中从 git 存储库运行笔记本,但我不知道该作业本身是否可以添加到 git 存储库中。

回答 2 投票 0

不同的存储路径取决于 Delta Live Tables 的结帐分支

如何根据我正在工作的分支更改存储位置。例如,我希望在我的功能分支上运行 DLT 管道时的存储位置不同于

回答 1 投票 0

数据湖屋和三角洲湖有什么区别?

我是 Databricks 新手。我正在阅读有关 data Lakehouse 的 Microsoft 文档。在文档中,他们提到了三角洲湖,但没有解释其中的区别,或者即使有......

回答 1 投票 0

如何知道pyspark中CDF合并影响的行数?

我有一个 CDF 逻辑,我需要知道由于合并而影响的行,即我需要知道插入、更新和删除的行数才能做出一些决定。我能够达到要求的

回答 1 投票 0

拆分具有“|”的列值分隔符并再次将“~”拆分为 pyspark 中的三个不同列(A、B、C)

我尝试首先使用 | 拆分 pyspark 数据框列“G_Codes”中的以下数据分隔符,然后将具有 ~ 分隔符的每个拆分值转换为三个新列。 | 的 |德尔...

回答 1 投票 0

无法使用 AZURE 和 Databricks 将指定数据从一个容器获取到另一个容器(数据清理)

从 pyspark.sql.functions 导入 from_utc_timestamp, date_format 从 pyspark.sql.types 导入 TimestampType 对于表名中的 i: 路径 = '/mnt/bronze/SalesLT/' + i + '/' + i + '.parquet' df = 晶石...

回答 1 投票 0

Databricks 模型注册表 Webhook HMAC 验证不起作用

Databricks 模型注册表可让您创建 Webhook 来对事件做出反应。您可以使用 HMAC 来验证 Webhook 发送的消息。这是 Databricks 文档中的 Python 示例代码。

回答 1 投票 0

如何提高 databricks 中的 display() 性能?

我将子查询与 as 分离到每个数据框中。 从 pyspark.sql 导入 DataFrame 从 pyspark.sql.window 导入窗口 从 pyspark.sql 将函数导入为 F 从日期时间导入日期时间,

回答 1 投票 0

azure databricks 中具有 Spark/dbutils 依赖项的自定义 python 模块

我最近在 Azure Databricks 上启用了预览功能“存储库中的文件”,这样我就可以将许多常规功能从笔记本移动到模块,并摆脱...

回答 2 投票 0

Databricks Delta Live 表只是在 CDC 和 SCD 之后覆盖吗?

您好 Databricks 社区, 目前我面临以下问题,我正在尝试为此找到一个好的解决方案。我使用 DLT 开发具有多跳架构的管道。 用于摄取

回答 1 投票 0

DataBricks Delta Live Tables 期望:如何动态执行 @dlt.expect()

我尝试了以下代码,但运行 DLT 管道时出现错误: 如果 kwargs.get("df_tableoperation", None) 不是 None : ^ SyntaxError: 无效语法 这个想法是动态...

回答 1 投票 0

从databricks pyspark或spark sql调用雪花过程

必须调用Snowflake存储过程并将参数值传递给它,然后读取输出。 这必须使用以下格式行中的 Databricks pyspark 来实现。 df_sp= 温泉...

回答 1 投票 0

Databricks Spark sql,事实查询,显示数据速度慢

在大桌子上使用以下示例: pages = Spark.sql('select * from table xx'),我发现查询运行在几秒钟内,但是只要我想用pages.show(n=10)查看数据就需要

回答 1 投票 0

FIELD_NOT_FOUND 在 azure databricks 上没有这样的结构字段错误

我有一个 JSON 格式的数据集,我正在尝试使用 azure Databricks 对其进行转换。 我使用爆炸函数选择了感兴趣的列,因为 json 具有嵌套数组。 来自 pyspa...

回答 1 投票 0

目录未复制到 databricks 笔记本上

考虑我的这段代码: # 定义 DBFS 上的基目录和本地目录 dbfs_base_dir = 'dbfs:/FileStore/tables/cnh_dataset/' local_base_dir = '/tmp/cnh_dataset/' # 创建...

回答 1 投票 0

根据 Databricks 中的 dbutils.fs.ls 输出创建数据框

所以,我是一名初学者,正在 Databricks 上学习 Spark 编程 (pyspark) - 我想做什么? 列出目录中的所有文件并将其保存到数据框中,以便我能够应用过滤器...

回答 4 投票 0

Databricks Notebook 中推断架构失败

我在Databricks中编写了一个spark结构化流。第一段代码是检查我的实体是否存在增量表。如果没有,则创建增量表。在这里,我想我们...

回答 1 投票 0

在流式传输和更新插入到增量表时保留分区

我目前正在使用 writestream 进行流式传输以写入现有的增量表,以便添加附加属性。 我正在使用 foreachBatch 函数,其中包含用户定义的函数

回答 1 投票 0

Databricks:提取数组中“”之间的值

我有一个名为“trigger_piece”的专栏,它的组织方式如下: [“弧”,“erf”,“erear”] 我正在寻找创建新列(在本例中为 3 个新列,例如:

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.