如何使用文本数据清理数据集并将其用于分类[关闭]

Question

我正在研究具有许多缺失值和更多分类值的数据集上的性别分类器。我应该如何将分类值转换为数值以及我应该使用哪种算法来获得更高的准确度？ https://github.com/lakshmipriya04/py-sample/

Answer 1

有两种类型的分类变量编码：创建虚拟变量并通过标签编码进行编码。

对于每组虚拟列，虚拟变量的缺失值将显示为空向量。对于标签编码，它可以是特定的类（标签）。

要解决缺失值问题，可以通过平均值（数值）或模式（对于分类）来计算它们。在创建额外的missing-values-indication-column之前，如果值丢失则为1，否则为0。

通过插补，可以使用来自ML的任何分类器。尝试SVC（因为你有二进制分类）并从简单的逻辑回归开始。

没有插补只有XGBoost可以提供帮助（它允许在数据集中有缺失的值）。

但是你还有一个问题。您需要预处理文本。请阅读NLP。