NLP情绪分析-基本准则

问题描述 投票:1回答:2

我正在NLP领域中做我的第一个项目,该项目是对带有约250个带标签的英语数据点/句子的数据集的情感分析。数据集是具有阳性,阴性或中性标签的药品评论。我已经在监督学习中使用数字数据工作了3年,但是NLP对我来说是未知的领域。因此,我想知道最好的预处理技术以及我需要做的最适合我的问题的步骤。来自NLP专家的指南将不胜感激!

machine-learning nlp sentiment-analysis word-embedding
2个回答
2
投票

根据您对mohammad karami答案的评论,您所不了解的是paragraphsentence表示形式(您说的是“转换为数字才是真正的问题”)。因此,在数字数据中,假设您有一张带有两列(特征)和标签的表,也许是“工作经历”,“年龄”和标签“薪水”之类的东西(根据年龄和工作经验来预测薪水) )。在NLP中,功能通常不是全部时间都位于单词级别(有时也可以是字符级别或子单词级别)。这些功能称为令牌。现在,这些列将替换为这些标记。进行段落表示的最简单方法是使用单词袋。因此,在预处理之后,每个唯一的单词都将映射为列。因此,假设我们有两行数据训练,如下所示:

  • “我帮助你,你应该帮助我”
  • “您和我”

唯一的单词将成为该列,因此表可能看起来像:

I | help | you | and | should | me

现在这两个样本的值如下:

  • [1、2、2、1、1、1]
  • [1,0,1,1,0,0]

[注意,数组的第一个元素为1,因为两个样本都具有单词I并发生一次,现在看到第二个元素在第一行是2,在第二行是0,因为单词帮助在第一行发生两次,而在第二行从未发生。其背后的逻辑将类似于“如果单词A,单词B ...存在而单词H,单词I ...不存在,则标签为正”。

单词袋在大多数情况下都有效,但是它存在诸如维数问题(假设有40亿个唯一单词,特征太多)的问题,并且请注意,它并没有考虑单词的顺序,请注意类似的词用相同的方式表示,还有更多。 NLP的当前最新技术称为BERT,请了解如果要使用best


0
投票

首先,您必须指定要具有的功能,然后进行预处理。但是,您可以:1-删除HTML标签2-删除多余的空格3-将重音字符转换为ASCII字符4-扩大收缩5-删除特殊字符5-小写所有文字6-将数字单词转换为数字形式7-删除号码8-删除停用词9-合法化做自己的数据。我建议查看NLP的NLTK软件包。 NLTK具有情感分析功能(maybe help your work)。然后使用tf-idf或任何其他特征提取或特征选择算法提取特征。然后在缩放后给出机器学习算法。

© www.soinside.com 2019 - 2024. All rights reserved.