tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

文本分类+NLP+数据挖掘+数据科学:在应用tf-idf之前我应该停止词删除和词干提取吗?

我正在研究文本分类问题。问题解释如下: 我有一个事件数据集,其中包含三列 - 事件名称、事件描述、

回答 2 投票 0

使用K-Means进行文档聚类,聚类应该基于余弦相似度还是基于术语向量?

抱歉,如果答案很明显,请友善,这是我第一次来这里:-) 如果有人可以指导我适当的输入数据结构,我将不胜感激......

回答 5 投票 0

在词云中实现 tf-idf

我在像下面的 df_unis 这样的数据框中有一些对一些大学的谷歌评论。列 uni_name 包含大学名称。我希望分别为每所大学创建词云...

回答 1 投票 0

余弦相似度的几何可视化

我通过使用Python中的TF-IDF向量化以非常基本的方式计算了两个文档之间的余弦相似度。 但我想将文档可视化为 3D 空间中的矢量化图......

回答 1 投票 0

在sklearn中创建TfidfTransformer时,“use_idf”到底做了什么?

我正在使用Python 2.7中sklearn包中的TfidfTransformer。 当我逐渐适应这些论点时,我对 use_idf 变得有点困惑,如下所示: TfidfVectorizer(use_idf=Fa...

回答 3 投票 0

保留 TFIDF 结果以预测新内容

我正在Python上使用sklearn来做一些聚类。我已经训练了 200,000 个数据,下面的代码运行良好。 语料库 = open("token_from_xml.txt") 矢量化器 = CountVectorizer(decode_error="

回答 5 投票 0

使用 TFIDF 的 SKL 管道中的数据形状问题

我被 Python/Sci-Kit Learn/Pipelines 的问题难住了。我收到一个错误,表明数据通过管道时的形状不是预期的。 具体错误: 块[0,...

回答 1 投票 0

计算多个 pandas 数据框中具有精确顺序的元素列表的全局频率的最佳实践是什么?

假设我有以下与user1对应的datafarme df1: +--------------------+--------+--------+--------+---- ---+----------+----------------+ | 型号| 梅 | 硕士 | RMSE ...

回答 2 投票 0

在多个 pandas 数据框中计算 python 中元素列表的频率的最佳实践是什么?

假设我有以下与user1对应的datafarme df1: +--------------------+--------+--------+--------+---- ---+----------+----------------+ | 型号| 梅 | 硕士 | RMSE ...

回答 1 投票 0

我不明白sckit-learn的tfidfvectorizer的工作原理

我知道计算 tf-idf 的公式是 TF * IDF,其中 TF 是该单词在文档 D 中出现的次数,IDF 是文档数/包含该单词的文档数 + 1。 T...

回答 1 投票 0

将 RDD (pyspark) 保存并加载到 pickle 文件正在更改 SparseVectors 的顺序

我在预分词(unigram tokenizer)数据集上训练了 tf-idf,使用 pyspark 的 HashingTF 和 IDF 实现将其从 list[list(token1, token2, token3, ...)] 转换为 RDD。我尝试过...

回答 1 投票 0

Scikit-Learn 的 feature_names_in 方法

许多 scikit-learn 的类都有一个 feature_names_in 方法,如果我能更好地理解它,这将是一个真正的节省时间的方法。 具体来说,假设您的 X 是字符串的嵌套列表 [['A', ...

回答 1 投票 0

如何存储 TfidfVectorizer 以供将来在 scikit-learn 中使用?

我有一个 TfidfVectorizer,它可以对文章集合进行矢量化,然后进行特征选择。 向量化器 = TfidfVectorizer() X_train = vectorizer.fit_transform(语料库) 选择器 = SelectKBest(chi2,...

回答 3 投票 0

如何获取TFIDF转换器中的值?

我是 Python 新手,最近学习使用 Bag of Words 和 TFIDF 进行文本处理。 我试图使用以下代码获取 TFIDF 中第 1001 列中的单词: 计数向量化器 =

回答 1 投票 0

如何获取文档查询的余弦相似度分数

我正在做一个文本分类程序,其中我有一个包含 5 个类别的数据集(“商业”、“娱乐”、“本地”、“体育”、“世界”)。该数据集包含 5 个文件夹(针对 5 个类),共 100 txt ...

回答 1 投票 0

TfIdfVectorizer:固定词汇的向量化器如何处理新词?

我正在研究约 10 万篇研究论文的语料库。我正在考虑三个领域: 纯文本 标题 抽象的 我使用 TfIdfVectorizer 获取明文字段的 TfIdf 表示形式并提供

回答 1 投票 0

tf-idf 和以前未见过的术语

TF-IDF(词频 - 逆文档频率)是信息检索的主要内容。但这不是一个合适的模型,当新术语引入语料库时,它似乎就会崩溃......

回答 2 投票 0

AttributeError:在 NLP 任务中调用 model.fit() 时,“tuple”对象没有属性“rank”

我正在关注这个教程 https://towardsdatascience.com/another-twitter-sentiment-analysis-with-python-part-9-neural-networks-with-tfidf-vectors-using-d0b4af6be6d7 然而,在实施的同时...

回答 1 投票 0

标准化 TF-IDF 结果

我想规范化从给定代码中获得的 tfidf 结果: for (int docNum = 0; docNum < ir.numDocs(); docNum++) { TermFreqVector tfv = ir.getTermFreqVector(doc...

回答 2 投票 0

处理来自不同文档的相同单词

我正在制作一个Python类,它计算文档中每个单词的tfidf权重。现在我的数据集中有 50 个文档。在这些文档中,许多单词相交,因此有多个相同的单词

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.