data-science 相关问题

数据科学涉及以任何形式或形式从数据中提取知识或见解。它可以包含预测分析,通常需要进行大量的数据争论。请考虑在https://datascience.stackexchange.com/上发帖

Python - Cumsum 函数无限循环,即使完成后也重复相同的数据

我有一个大型数据库,包含约 100,000 行和约 30 列。我想从两列中提取数据(产品名称和购买数量),并实现 cumsum 函数...

回答 1 投票 0

如何绘制多个 pandas 列

我有数据框total_year,其中包含三列(年份、动作、喜剧)。 如何在 y 轴上绘制两列(动作和喜剧)? 我的代码只绘制了一个: Total_year[-15:].plot(x='年份', y='

回答 3 投票 0

使用 pandas dataframe 中的 lambda 函数在列之间执行多重计算

我有一个包含多个列的数据框。其中有一个名为“remaining_lease”的列,其中有 75% Nan。我不想删除该专栏。所以我想使用另外两个列来计算“remaining_lease”...

回答 1 投票 0

此数据集需要哪些预处理?

数据集链接:- https://catalog.data.gov/dataset/national-vital-statistics-system-nvss-national-cardioangio-disease-surveillance-data 笔记簿链接:- https://colab.research.google.com/drive/

回答 1 投票 0

使用networkx从数组创建节点标签

我有一些从 numpy 邻接矩阵生成的节点。我还有一个用于所述节点的标签数组,其中矩阵中的节点 0 对应于数组中的标签 0。什么...

回答 1 投票 0

更改下拉选择器上的选项时,Altair 不显示数据

我想使用 Altair 图表根据年份显示某个功能的计数,并且我想通过选择年份作为下拉选择器的选项来实现此目的。它与“无”选项一起工作正常......

回答 1 投票 0

有没有办法用Python计算这个表?

我在 python 中计算这个表时遇到了麻烦,因为 x 轴和 y 轴有范围。有没有一种方法可以输入此表,而无需手动输入范围内的所有数字?例如...

回答 1 投票 0

ValueError:从“y”的唯一值推断出无效的类。预期:[0 1 2],得到['辍学''入学''毕业生']

我目前正在使用 XGBoost 分类器模型进行分类任务。我的数据集包含分类变量、我的目标类别(“辍学”、“已入学”、“毕业生”)。 来自 xgboost imp...

回答 1 投票 0

Pytorch 运行时错误:efficientnet 通过设置冻结层需要 grad = false

我想冻结pytorch efficentnet模型中的层。我通常的做法不起作用。 从 torchvision.models 导入 effectivenet_b0 从火炬导入 nn 从火炬导入优化

回答 1 投票 0

Xarray 合并不同维度的数据集?

我正在尝试合并两个 Xarray 数据集。数据集的分辨率不同(一个数据集的点数比另一个数据集的点数多)。最终,我需要将这些值相乘到一个数据集中。 我...

回答 3 投票 0

SQL - 将数组列扩展为元素列

我有一个 SQL 表,表的一列的类型为 text[]。我想创建一个查询来创建一个新表,该表由所有展平和连接的数组组成。例如:如果有...

回答 1 投票 0

分类列到多个计数列

假设我们有一个 DataFrame: 数据= {'person_id':['person_a','person_a','person_b','person_b','person_c','person_c'], 'categorical_data': ['新', '新', '好', '坏', '新', '坏']} df =...

回答 1 投票 0

有没有一种简单的方法可以将欧氏距离列添加到现有的 PySpark 数据帧?

令我惊讶的是,我无法找到一种简单的方法来使用外部数组和 pyspark 列中的数组来根据欧几里德距离创建新列。 假设我有以下数据框...

回答 1 投票 0

SVC 分类器花费太多时间进行训练

我正在使用带有线性内核的 SVC 分类器来训练我的模型。 列车数据:42000条记录 模型 = SVC(概率=True) model.fit(self.features_train, self.labels_train) y_pred = 模型。

回答 4 投票 0

我如何删除数据框中的数据?

我正在查找重复的预订 ID,然后尝试将其从电子表格中删除。这并没有发挥应有的作用。我哪里做错了? 我尝试使用 数据范围 = 文件 1[~文件 1['

回答 2 投票 0

马哈拉诺比斯距离实施不起作用 R

我正在开发一个计算马氏距离的 R 函数。是的,我知道 mahalanobis() 函数已经做到了,但我需要“手动”实现它。目前的实施...

回答 1 投票 0

将对象数据类型转换为日期时间

我的专栏中的日期如下所示: 日期 9999-12-31 00:00:00 我想将日期列的类型转换为日期时间。 因为我在专栏中的时间为 00:00:00,所以我无法使用该功能

回答 1 投票 0

为什么要在时间序列预测中删除趋势和季节性?

我很难理解为什么在Python中执行时间序列预测时我们需要从非平稳时间序列数据中删除趋势和季节性成分。不会删除这些

回答 2 投票 0

HDF5 读取数据集的性能

我有数百万张图像,我想尽快阅读它们,但我希望能够以随机顺序阅读它们。 我将它们存储在 HDF5 文件中,但我发现读取时间非常多

回答 1 投票 0

Pandas - take() 不接受布尔索引器

我需要从旧的 df 创建新的 Dataframe,其中包含定义的列。 model_columns = ['dist', 'date_day', 'is_holiday', 'date_dayofweek', 'date_month', ‘科技’、‘帽子’、‘嘿...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.