tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

在这个例子中,scikit-learn的tf-idf是否正确?最常见的单词得分很高

来自sklearn.feature_extraction.text import TfidfVectorizer documents = [“汽车行驶在路上”,“卡车在高速公路上行驶”,“卡车是”] ......

回答 1 投票 0

如何使用sklearn的SGDClassifier返回前N个预测的准确率?

我试图修改这篇文章中的结果(如何使用sklearn的SGDClassifier获得前3或前N个预测)来获得返回的准确率,但是我得到的准确率为零,我......

回答 2 投票 2

Tf-idf匹配列表与列表,而不是一个列表

我是python的新手,我正在尝试使用tf-idf匹配。我按照本文的教程进行操作。我想知道我是否可以匹配输入列表与另一个已经列出的列表...

回答 1 投票 2

单个学期的TF-IDF分数是否合并?

我正在阅读有关TF-IDF的内容,以便我可以从我的语料库中过滤掉常用词。在我看来,你得到每个单词,文档对的TF-IDF分数。你注意哪个分数?做......

回答 1 投票 0

值列表的余弦相似度

我试图找到字符串列表的余弦相似性。我使用sklearn tfidf向量首先将文本转换为数字向量,然后使用成对的cosine_similarity api来查找...

回答 2 投票 1

从一组文档中提取重要的子部分和与之关联的子文档集

我有一套文件,所有这些文件都属于“犯罪”类别。现在,我想将它们分类为多个(可能是重叠的)文档集群,其中每个集群都是......

回答 2 投票 0

在整个数据集上计算TF-IDF还是仅在训练数据上计算?

在本书的第七章“TensorFlow机器学习手册”中,作者在预处理数据时使用了fit_transform函数scikit-learn来获取文本的tfidf功能进行训练。 ...

回答 2 投票 4

如何通过scikit-learn TfidfVectorizer计算TF-IDF

我运行以下代码将文本矩阵转换为TF-IDF矩阵。 text = ['这是一个字符串','这是另一个字符串','TFIDF计算计算','TfIDF是TF和IDF的产物']来自......

回答 3 投票 13

对于具有训练模型的相同测试数据的不同结果

我们在python中使用joblib加载了训练模型,并给出了不同大小的测试集作为预测输入。例如。我们将测试集命名为S1,S2,其中S1有100个实例,S2有1000个......

回答 1 投票 -3

Tfidfvectorizer - 如何查看已处理的令牌?

如何检查TfidfVertorizer()中标记的字符串?如果我没有在参数中传递任何内容,TfidfVertorizer()将使用一些预定义的方法对字符串进行标记。我想观察......

回答 3 投票 1

如何在单个文档中查找单词相关性?

我想在单个文档中找到某些词(如经济,技术)的相关性。该文档大约有30页,其目的是提取所有文本并确定与此相关的单词...

回答 1 投票 0

使用spacy和textacy。需要在原始推文的语料库中找到tf-idf得分,但无法导入文本向量化

我是这些框架以及NLP的新手。我正在按照一个示例给出以下代码片段来计算推文中所有令牌的tf-idf分数。但是我一直在......

回答 1 投票 3

一般来说,TF-IDF何时会降低准确度?

我正在使用朴素贝叶斯模型训练一个包含200000条评论的正文和负面评论的语料库,我注意到执行TF-IDF实际上降低了准确性(同时测试...

回答 3 投票 0

解释文档中单词的TF-IDF分数之和

首先让我们提取每个文档每个术语的TF-IDF分数:来自gensim导入语料库,模型,相似性文档= [“实验室abc计算机应用程序的人机界面”,“...

回答 5 投票 18

ExactStatsCache不适用于分布式IDF

我在SolrCloud(7.7.1)中使用ExactStatsCache,为所有集合添加了solrconfig.xml文件。 一世 ...

回答 1 投票 0

如何从一列数据框计算tfidf分数并提取具有最小分数阈值的单词

我已经采用了一列数据集,其中每行都有文本形式的描述。我试图找到tf-idf大于某个值n的单词。但代码给出了分数矩阵我如何排序...

回答 1 投票 1

使用自定义词汇表进行TfidfVectorizer scikit-learn的问题

我正试图在scikit中使用自定义词汇 - 学习一些聚类任务,我得到了非常奇怪的结果。不使用自定义词汇表时程序运行正常,我对...感到满意

回答 3 投票 3

在NLP中使用tf-idf如何在python中查找语料库(包含大量文档)中特定单词的频率

如何使用Tf-idf从语料库中找到单个单词的频率。下面是我的示例代码,现在我想打印一个单词的频率。我怎样才能做到这一点?来自sklearn ....

回答 1 投票 1

如何执行k意味着从Gensim TF IDF值进行聚类

我正在使用Gensim进行矢量空间模型。在从Gensim创建字典和语料库后,我使用以下行计算了(Term frequency * Inverse document Frequency)TFIDF:Term_IDF = ...

回答 2 投票 1

TfidfVectorizer如何计算测试数据的分数

在scikit-learn中,TfidfVectorizer允许我们适应训练数据,然后使用相同的矢量化器来转换我们的测试数据。列车数据转换的输出是一个矩阵......

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.