data-science 相关问题

数据科学涉及以任何形式或形式从数据中提取知识或见解。它可以包含预测分析,通常需要进行大量的数据争论。请考虑在https://datascience.stackexchange.com/上发帖

如何正确使用Github Rest API

我正在做我的大学作业项目。但我无法使用 github api 找到这些数据: 登录:他们的 Github 用户 ID 姓名:他们的全名 公司:他们工作的公司。清理公司...

回答 1 投票 0

如何对不同特征工程过程中的特征进行标准化和归一化?

我正在使用一个数据集,其中每个样本都包含数字和文本数据。因此,采用多种方法从数据集中构建训练特征矩阵。对于

回答 1 投票 0

在我的 LinkedIn 自动化脚本中单击“连接”按钮时遇到问题

我使用 Selenium 开发了一个简单的机器人,它打开 LinkedIn 并搜索“数据科学家”和“首席数据科学家”职位。虽然机器人成功执行了搜索,但目前它...

回答 1 投票 0

并行查询极坐标数据框中过滤器表达式列表的索引

我想获取极坐标中滤波器列表的索引并从中获取稀疏矩阵,如何并行该过程?这就是我现在所拥有的,对于 achi 来说,这是一种非常天真的和蛮力的方式......

回答 2 投票 0

使用特定列的自定义函数在 Polar 中填充 NaN 值

我在pandas中有这段代码: df[列] = ( df[列] .fillna(方法=“填充”,限制= 1) .apply(lambda x: my_function(x)) ) 我想重写这个

回答 1 投票 0

什么时候应该将 Age 列转换为 float 或 int?

我有这个疑问,通常数据集的 Age 列值采用 int 或 float 数据类型(例如泰坦尼克号)。 因此,假设该列具有所有浮点值,您应该将它们全部转换为 int 还是顺其自然......

回答 2 投票 0

合并数据集时如何高效解决冲突

我想知道如何改进解决冲突的功能。我的想法是,当我在合并时得到三个不同的值时,我为检索到的每个值计算一个分数(相似度比率

回答 1 投票 0

需要修复我的 Python、Pyspark 处理作业的时区问题

我在Postgres aurora“last_updated_timestamp”中有数据库列,它没有时区并且值为“2024-08-01 00:00:00” 当我执行 df.show() 时,我正在使用 pyspark df 获取该值 是

回答 1 投票 0

`inner_kws` 对 Seaborn 小提琴图没有影响

我生成了一堆小提琴图,下面是一个示例以及生成它的代码: plt.figure(figsize=(8, 4)) 斧头 = sns.小提琴图( x=data, # `data` 是几千个浮点值...

回答 1 投票 0

检查 Polars DataFrame 中的任何值是否为 True

这是一个非常简单的问题,但我似乎找不到任何明确的简单解决方案,感觉就像我错过了一些东西。 假设我有一个 DataFrame 类型 df = pl.from_repr("""...

回答 1 投票 0

用机器学习中的列平均值来估算缺失值

我知道插补缺失值正是它听起来的意思,我说的是用列的平均值插补它。我通常在将数据分成训练和测试之前估算缺失值,但是......

回答 2 投票 0

如何正确安装sklearn模块?

我正在尝试使用 pip 命令安装 sklearn 模块,但安装完成后,我只能看到这个文件夹 C:\Users\Aditi\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.

回答 2 投票 0

如何在 VS Code 上安装 pyodide 包

我想在 vs code 的数据分析项目中使用 pyodide 包,但我无法安装这个包,我需要帮助 我尝试运行 pip install pyodide 但遇到这个问题: 正在收集

回答 1 投票 0

sklearn 高斯过程回归器中的优化器调整

我正在尝试使用 GaussianProcessRegressor 作为 scikit-learn 0.18.1 的一部分 我正在训练 200 个数据点,并为我的内核使用 13 个输入特征 – 一个常数乘以径向基

回答 1 投票 0

调节 R 中组内的先前值

我正在尝试编写一段代码,允许我根据以下 data.frame 弹出的列的最早记录的值在组名称中创建 TRUE 或 FALSE 变量:

回答 1 投票 0

标题:如何使用 SpaCy-GPU 从 Polars DataFrame 列中删除停用词?

我正在使用 Polars DataFrame,我想使用具有 GPU 支持的 SpaCy 从特定列中删除停用词。我有以下设置: `将极坐标导入为 pl 导入spacy # 加载 SpaCy ...

回答 1 投票 0

在“DataFrameGroupBy”中选择多个列(基于“MultiIndex”)

我有一个包含多列的复杂数据框。它们都是基于多索引的。在某些时候,我想在估计一些指标时非常具体,所以我开始尝试......

回答 1 投票 0

在 Python 中的“DataFrameGroupBy”中选择多个列(基于“MultiIndex”)

我有一个包含多列的复杂数据框。它们都是基于多索引的。在某些时候,我想在估计一些指标时非常具体,所以我开始尝试......

回答 1 投票 0

如何在 PyCharm 社区版中运行和编辑 Jupyter Notebook 代码

我们如何在 PyCharm 社区版中运行 Jupiter Notebook?它说“打开笔记本后,您可以查看其所有单元格的输入和输出。编辑和单元格执行不是

回答 1 投票 0

如何将极坐标数据框中的一列内容拆分为多列

如果我的数据框中有字符串列,即“Cabin”,包含如下所示的值: 火车 = pl.from_repr(""" ┌────────┐ │ 客舱 │ │ --- │ │ str │ ╞═══════╡ │ B/0/P │ │ F/0/...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.