data-science 相关问题

数据科学涉及以任何形式或形式从数据中提取知识或见解。它可以包含预测分析,通常需要进行大量的数据争论。请考虑在https://datascience.stackexchange.com/上发帖

尝试在 Geopandas 的同一图中绘制两个具有两个图例的地理数据框

我在与 geopandas 的同一地块中使用多层时遇到了麻烦。我分别成功地绘制了两个图例,但是要绘制两个图例(每个图例一个)我无法绘制。下面是重新...

回答 1 投票 0

Pydoop 在大数据分析和数据科学中的重要性

我是数据科学和大数据框架的新手。 可以说,我有一个 CSV 格式的数据集输入。 我从 Google 和其他资源中发现了有关数据分析师和数据科学家日常工作的信息, 一旦使用...

回答 2 投票 0

XGBoost Python 错误:“标签大小必须等于行数”

我在Python中使用xgboost。 将 pandas 导入为 pd 将 numpy 导入为 np 将 xgboost 导入为 xgb 从 sklearn.model_selection 导入 train_test_split df=pd.read_csv('442.csv') y=df.columnone X=df.列...

回答 3 投票 0

主题建模的评价:如何理解一个一致性值/c_v为0.4,是好是坏? [已关闭]

我需要知道一致性分数为0.4是好是坏?我使用LDA作为主题建模算法。 在这种情况下,平均一致性得分是多少?

回答 3 投票 0

新版本 R 的 gWidgets2RGtk2 问题

我想将 tReasure 工具用于科学目的(https://github.com/jinoklee/tReasure)。完成我的工作对我来说非常重要。但是,我无法安装它,因为它给出了关于 &q 的错误...

回答 1 投票 0

GridSearchCV - XGBoost - 提前停止

我正在尝试在 XGBoost 上使用 scikit-learn 的 GridSearchCV 进行超参数搜索。在网格搜索期间,我希望它早点停止,因为它大大减少了搜索时间并且(期望)有

回答 4 投票 0

获取功能名称时出现 get_features_name_out 错误

我想知道特征对我的数据的重要性,所以我使用 permutation_importance。当我得到结果时,似乎该功能已经解码,我想使用

回答 1 投票 0

在 ADO 中创建团队数据科学流程

我们的组织目前正在使用 Azure DevOps (ADO),我们有兴趣将“团队数据科学流程”(TDSP) 集成到我们的数据科学和机器学习项目中

回答 1 投票 0

处理短文本中的多个候选实体,以使用 SciSpacy 进行实体链接

我正在研究项目中使用 SciSpacy 将短文本链接到生物医学知识图谱 (UMLS CUI) 中的实体。目标是分析链接实体之间的关系...

回答 1 投票 0

文本分类+NLP+数据挖掘+数据科学:在应用tf-idf之前我应该停止词删除和词干提取吗?

我正在研究文本分类问题。问题解释如下: 我有一个事件数据集,其中包含三列 - 事件名称、事件描述、

回答 2 投票 0

在 VS Code 上将 Fuzzywuzzy 加载到 conda 环境中不起作用

我目前无法安装 fuzzywuzzy,但模糊匹配对于我正在处理的数据项目非常重要,因为数据集包含数千个点并且需要通过计算进行分组。我很...

回答 1 投票 0

如何正确使用Github Rest API

我正在做我的大学作业项目。但我无法使用 github api 找到这些数据: 登录:他们的 Github 用户 ID 姓名:他们的全名 公司:他们工作的公司。清理公司...

回答 1 投票 0

如何对不同特征工程过程中的特征进行标准化和归一化?

我正在使用一个数据集,其中每个样本都包含数字和文本数据。因此,采用多种方法从数据集中构建训练特征矩阵。对于

回答 1 投票 0

在我的 LinkedIn 自动化脚本中单击“连接”按钮时遇到问题

我使用 Selenium 开发了一个简单的机器人,它打开 LinkedIn 并搜索“数据科学家”和“首席数据科学家”职位。虽然机器人成功执行了搜索,但目前它...

回答 1 投票 0

并行查询极坐标数据框中过滤器表达式列表的索引

我想获取极坐标中滤波器列表的索引并从中获取稀疏矩阵,如何并行该过程?这就是我现在所拥有的,对于 achi 来说,这是一种非常天真的和蛮力的方式......

回答 2 投票 0

使用特定列的自定义函数在 Polar 中填充 NaN 值

我在pandas中有这段代码: df[列] = ( df[列] .fillna(方法=“填充”,限制= 1) .apply(lambda x: my_function(x)) ) 我想重写这个

回答 1 投票 0

什么时候应该将 Age 列转换为 float 或 int?

我有这个疑问,通常数据集的 Age 列值采用 int 或 float 数据类型(例如泰坦尼克号)。 因此,假设该列具有所有浮点值,您应该将它们全部转换为 int 还是顺其自然......

回答 2 投票 0

合并数据集时如何高效解决冲突

我想知道如何改进解决冲突的功能。我的想法是,当我在合并时得到三个不同的值时,我为检索到的每个值计算一个分数(相似度比率

回答 1 投票 0

需要修复我的 Python、Pyspark 处理作业的时区问题

我在Postgres aurora“last_updated_timestamp”中有数据库列,它没有时区并且值为“2024-08-01 00:00:00” 当我执行 df.show() 时,我正在使用 pyspark df 获取该值 是

回答 1 投票 0

`inner_kws` 对 Seaborn 小提琴图没有影响

我生成了一堆小提琴图,下面是一个示例以及生成它的代码: plt.figure(figsize=(8, 4)) 斧头 = sns.小提琴图( x=data, # `data` 是几千个浮点值...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.