tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

为什么TF-IDF的值和IDF_不一样?

向量化语料的值为什么和通过idf_属性得到的值不一样? idf_ 属性不应该只返回同一个文件中的逆文档频率(IDF)...

回答 1 投票 0

需要帮助来理解 Pandas TfidfTransformer 背后的计算

举例问题- 数据 - 数据 = [['1', 'af_aa'], ['1', 'af_aa'], ['1', 'af_bb'], ['1', 'af_bb'], ['1', 'af_cc'], ['2', 'af_aa'], ...

回答 0 投票 0

如何获得单词的 TF-IDF 分数?

我有一个很大的语料库(大约 40 万个独特的句子)。我只想获得每个单词的 TF-IDF 分数。我试图通过扫描每个单词并计算频率来计算每个单词的分数......

回答 2 投票 0

TF-IDF,带有用于 python 中的 IDF 的日志基数 2

我是机器学习的新手。我尝试使用 TF-IDF 进行情绪分析。 我使用的公式 TF 是: TF公式 我使用的公式 IDF 是: IDF公式 对于 IDF 公式,我使用带有 lo 的基本公式...

回答 0 投票 0

tfidf w2v给出NaN值。

当使用TFIDF Word2Vec给NaN值的审查亚马逊精细食品数据集后,采样到100k数据点,我得到NaN值的句子向量...... 我几乎尝试了...

回答 1 投票 0

使用python的TF-IDF向量器。

我在python中使用TfidfVectorizer函数时遇到了一个问题。例如,如果我有一个像这样的字符串:'xxx/xx.aaa.bb.ccc.d'将被提取这些词作为字典的键:'xxx','......'。

回答 1 投票 0

为什么ElasticSearch中的 "More Like This "不尊重单个术语的TF-IDF顺序?

我一直在尝试摸索ElasticSearch中的 "More Like This "功能。我读了又读了文档,但我很难理解为什么会出现以下行为。...

回答 1 投票 1

使用sklearn预测新内容的文本群集。

我想了解如何使用sklearn创建文本的聚类。我有800百个文本(600个训练数据和200个测试数据),如下所示。文本#列名称1唐纳德-特朗普,... ...

回答 1 投票 1

使用不同的颜色和标签进行聚类

我正在研究文本聚类。我需要用不同的颜色来绘制数据,我使用了kmeans方法进行聚类,tf-idf进行相似度分析。Kmeans_labels =KMeans(n_clusters=3).fit(...)。

回答 1 投票 0

使用TF-IDF在K-Means中绘制中心点。

我正在用KMeans编码来组文本,一切都很好,但我无法将中心点绘制在一起。我不知道如何使用matplotlib,只知道seaborn连同创建的向量 ...

回答 1 投票 0

删除R中只出现一次且IDF较低的词。

我有一个数据框,里面有一列文字。我想做三个数据预处理步骤。1)删除只出现一次的词 2)删除反文档频率(IDF)低的词......。

回答 1 投票 0

我的模型是否应该总是在训练数据集上给出100%的准确性?

from sklearn.naive_bayes import MultinomialNB # Multinomial Naive Bayes on Lemmatized Text X_train, X_test, y_train, y_test = train_test_split(df['Rejoined_Lemmatize'], df['Product'], random_state = ...)

回答 1 投票 0

Tfidftransformer和Tfidfvectorizer的区别是什么?

我对Tfidftransformer & Tfidfvectorizer的使用有点困惑,因为它们看起来都很相似,一个使用文字转换矩阵(Tfidfvectorizer),另一个使用已经转换好的文本(使用 ...

回答 1 投票 0

提高邮件分类的准确性?

我正在建立一个邮件分类模型。目前,我在数据的预处理过程中使用了NLTK的stopwords和lemmatization。以下是我正在使用的TF-IDF向量器的参数 ...

回答 1 投票 0


在TF-IDF模型中检索顶级令牌的最佳方法

[如何从具有以下组件的SciKit学习管道中获取最重要的令牌概述:multinb = Pipeline([('vect',CountVectorizer()),('tfidf',...

回答 1 投票 0

spark数据帧(scala)中tf idf输出的余弦相似度

我正在使用Spark Scala计算数据帧行之间的余弦相似度。数据帧格式如下:根|-id:长(nullable = true)|-特征:矢量(nullable = true)...

回答 1 投票 0

Tf-Idf的输出不令人满意

我在文本文件中有两行的文档,如下所示。我想将tf-idf应用于它,但出现如下所示的错误,我不确定文件中的int对象在哪里?为什么会抛出这个...

回答 1 投票 0

有人可以检查我的tf-idf加权是否正确吗?

我收集了15个文件,其中10个词中出现了吸烟,其中2个词中出现了健康。我需要在tf-idf加权之后检查这些项的值...

回答 1 投票 0

为预测的群集创建新列:SettingWithCopyWarning

不幸的是,这个问题将重复,但是即使查看了其他类似的问题及其相关的答案,我也无法在代码中解决该问题。我需要将数据集拆分为...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.