tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

为什么sklearn tf-idf向量化器给停用词最高分？

我用sklearn为nltk库中Brown语料库的每个类别实现了Tf-idf。有 15 个类别，每个类别的最高分都分配给停用词。默认参数...

python scikit-learn nltk tf-idf tfidfvectorizer

回答 2 投票 0

执行 Vectorizer 后从单词到句子的欧几里得距离

我有包含 1000 个文本行的数据框。我做了TfidfVectorizer。现在我想创建一个新字段，它给出每个句子到我想要的单词的距离，让我们说单词“king&q...

pandas dataframe nlp text-classification tf-idf

回答 1 投票 0

文本分类+NLP+数据挖掘+数据科学：在应用tf-idf之前我应该停止词删除和词干提取吗？

我正在研究文本分类问题。问题解释如下：我有一个事件数据集，其中包含三列 - 事件名称、事件描述、

nlp data-mining data-science text-classification tf-idf

回答 2 投票 0

使用K-Means进行文档聚类，聚类应该基于余弦相似度还是基于术语向量？

抱歉，如果答案很明显，请友善，这是我第一次来这里:-) 如果有人可以指导我适当的输入数据结构，我将不胜感激......

php cluster-analysis k-means tf-idf cosine-similarity

回答 5 投票 0

在词云中实现 tf-idf

我在像下面的 df_unis 这样的数据框中有一些对一些大学的谷歌评论。列 uni_name 包含大学名称。我希望分别为每所大学创建词云...

nlp text-mining tf-idf word-cloud

回答 1 投票 0

余弦相似度的几何可视化

我通过使用Python中的TF-IDF向量化以非常基本的方式计算了两个文档之间的余弦相似度。但我想将文档可视化为 3D 空间中的矢量化图......

python nlp tf-idf cosine-similarity tfidfvectorizer

回答 1 投票 0

在sklearn中创建TfidfTransformer时，“use_idf”到底做了什么？

我正在使用Python 2.7中sklearn包中的TfidfTransformer。当我逐渐适应这些论点时，我对 use_idf 变得有点困惑，如下所示： TfidfVectorizer(use_idf=Fa...

python scikit-learn tf-idf

回答 3 投票 0

保留 TFIDF 结果以预测新内容

我正在Python上使用sklearn来做一些聚类。我已经训练了 200,000 个数据，下面的代码运行良好。语料库 = open("token_from_xml.txt") 矢量化器 = CountVectorizer(decode_error="

python machine-learning scikit-learn tf-idf

回答 5 投票 0

使用 TFIDF 的 SKL 管道中的数据形状问题

我被 Python/Sci-Kit Learn/Pipelines 的问题难住了。我收到一个错误，表明数据通过管道时的形状不是预期的。具体错误：块[0,...

python machine-learning scikit-learn pipeline tf-idf

回答 1 投票 0

计算多个 pandas 数据框中具有精确顺序的元素列表的全局频率的最佳实践是什么？

假设我有以下与user1对应的datafarme df1： +--------------------+--------+--------+--------+---- ---+----------+----------------+ | 型号| 梅 | 硕士 | RMSE ...

python pandas dataframe frequency tf-idf

回答 2 投票 0

在多个 pandas 数据框中计算 python 中元素列表的频率的最佳实践是什么？

假设我有以下与user1对应的datafarme df1： +--------------------+--------+--------+--------+---- ---+----------+----------------+ | 型号| 梅 | 硕士 | RMSE ...

python pandas dataframe frequency tf-idf

回答 1 投票 0

我不明白sckit-learn的tfidfvectorizer的工作原理

我知道计算 tf-idf 的公式是 TF * IDF，其中 TF 是该单词在文档 D 中出现的次数，IDF 是文档数/包含该单词的文档数 + 1。 T...

python machine-learning tf-idf tfidfvectorizer

回答 1 投票 0

将 RDD (pyspark) 保存并加载到 pickle 文件正在更改 SparseVectors 的顺序

我在预分词（unigram tokenizer）数据集上训练了 tf-idf，使用 pyspark 的 HashingTF 和 IDF 实现将其从 list[list(token1, token2, token3, ...)] 转换为 RDD。我尝试过...

python python-3.x pyspark rdd tf-idf

回答 1 投票 0

Scikit-Learn 的 feature_names_in 方法

许多 scikit-learn 的类都有一个 feature_names_in 方法，如果我能更好地理解它，这将是一个真正的节省时间的方法。具体来说，假设您的 X 是字符串的嵌套列表 [['A', ...

numpy scikit-learn tf-idf

回答 1 投票 0

如何存储 TfidfVectorizer 以供将来在 scikit-learn 中使用？

我有一个 TfidfVectorizer，它可以对文章集合进行矢量化，然后进行特征选择。向量化器 = TfidfVectorizer() X_train = vectorizer.fit_transform(语料库) 选择器 = SelectKBest(chi2,...

python python-3.x scikit-learn tf-idf joblib

回答 3 投票 0

如何获取TFIDF转换器中的值？

我是 Python 新手，最近学习使用 Bag of Words 和 TFIDF 进行文本处理。我试图使用以下代码获取 TFIDF 中第 1001 列中的单词：计数向量化器 =

python tf-idf

回答 1 投票 0

如何获取文档查询的余弦相似度分数

我正在做一个文本分类程序，其中我有一个包含 5 个类别的数据集（“商业”、“娱乐”、“本地”、“体育”、“世界”）。该数据集包含 5 个文件夹（针对 5 个类），共 100 txt ...

python python-3.x tf-idf cosine-similarity

回答 1 投票 0

TfIdfVectorizer：固定词汇的向量化器如何处理新词？

我正在研究约 10 万篇研究论文的语料库。我正在考虑三个领域：纯文本标题抽象的我使用 TfIdfVectorizer 获取明文字段的 TfIdf 表示形式并提供

python scikit-learn tf-idf cosine-similarity oov

回答 1 投票 0

tf-idf 和以前未见过的术语

TF-IDF（词频 - 逆文档频率）是信息检索的主要内容。但这不是一个合适的模型，当新术语引入语料库时，它似乎就会崩溃......

nlp statistics tf-idf oov

回答 2 投票 0

AttributeError：在 NLP 任务中调用 model.fit() 时，“tuple”对象没有属性“rank”

我正在关注这个教程 https://towardsdatascience.com/another-twitter-sentiment-analysis-with-python-part-9-neural-networks-with-tfidf-vectors-using-d0b4af6be6d7 然而，在实施的同时...

python keras neural-network nlp tf-idf

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.