text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

使用TM进行R文本挖掘:文档中是否包含罕见的单词

使用R中的TM软件包,如何为文档打分?我想以某种方式将包含非常独特单词的文档与包含常用单词的文档分开。我知道该如何...

回答 1 投票 0

根据R中的特定字词和后面的百分号提取字符串或值

我有一个包含数千行段落的Text列,我想提取“ Capacity> x%”的值。运算符可以是>,

回答 2 投票 0

最快过滤单词列表中不常用单词的方法

我有一个数据集,其中包含csv格式的令牌列表,例如:歌曲,令牌aaa,“ ['everyon','pict','becom','somebody','know']” bbb,“ [' tak','money','tak','prid','tak','littl']“首先是i ...

回答 1 投票 0

列pandas数据帧python中的单词频率计数输出不一致

所以我在熊猫中有一个简单的数据框,其中的一列包含推文消息。每个单元格或行均包含一条推文消息。我正在尝试进行单词频率计数以检测... ...>

回答 1 投票 0

代码中没有错误,但输出文件为空?

我正在尝试清理一些文本以进行定量的文本分析,但是我似乎在代码的某处是错误的。即使PyCharm没有给我任何错误(“退出代码为0的过程已完成”,...

回答 1 投票 0

用于在列表中查找单词,然后打印以下50行的功能

我有一个巨大的txt文件,我已阅读该文件并将其清除为列表。我正在寻找某些单词,所以我写了一个快速函数def find_words(lines):换成一行:如果...中的“我的单词” ...

回答 3 投票 0

提取文本的一部分并按要求在Python中设置其格式?

我想从较大的文本中提取信息(文本)的某些特定部分,并根据所需的格式将其导出。下面是一个示例#Input text = {第1行:sergefdsgwerh日期为10,29,2017 ...

回答 1 投票 0

带有外符号的Countvectorizer给出词汇表中交换的键值

我正在使用CountVectorizer:从sklearn.feature_extraction.text导入CountVectorizer导入熊猫作为pd series = pd.Series([“ abc”,“ aaa”])CountVectorizer(analyzer ='char')。fit(series) ....

回答 1 投票 2

文本挖掘python键

我有一个多行文件,用制表符分隔,其中可能包括(或不包括)第二列中的某些关键字,Place1 ______________ fish Place2______________fishing someting ...

回答 1 投票 0

在多个文本文件中查找正则表达式或正则表达式列表并提取匹配的行

问题警告:我擅长正则表达式,但我是Python新手。我已尝试阅读尽可能多的内容,但找不到适合我的情况的解决方案,所以我在问...

回答 1 投票 1

如何使用Python打印文本文件的子集?

我目前正在尝试使用Python从文本文件中提取信息。我想从文件中提取一个子集,并将其存储在与文本文件中出现的任何地方无关的单独文件中。给...

回答 2 投票 0

从R中的文本字符串中提取N个匹配项?

我在R中使用stringr,并且有一串文字列出了新闻标题。我想提取这些标题,但只显示出现的前N个标题。在我的示例字符串中,...

回答 1 投票 -1

标记后的单词袋

我研究了许多文本挖掘方法,并在创建单词袋时陷入困境。我知道这是将单词转换为数字的意思,以便机器可以理解,但是问题是...

回答 1 投票 0

使用ldatuning库在潜在Dirichlet分配模型上查找主题数量时出错

这是结果错误,我可以说这是因为至少有一个文档没有某些术语,但是我不知道为什么以及如何解决它。 prep_fun = function(x){x%>%...

回答 1 投票 0

使用text2vec的困惑问题

正如我经常提到的,我在230k文档上使用text2vec。我正在尝试通过困惑为我的文档术语矩阵找到最佳的主题编号。当我一一使用它时,效果很好,但是...

回答 1 投票 0

我无法使用text2vec为测试数据创建tf-idf矩阵

我正在按照本教程进行操作,就像我在进行训练时一样,但是它总是说同样的话。有人知道这有什么问题吗? >#构造样本文档项矩阵con ... ...>

回答 1 投票 0

我该如何分组后面带有位置编号的商店名称?

[我有一个看起来像这样的商店名称列表:麦当劳54875麦当劳654788麦当劳5478654 124麦当劳748415麦当劳12213 34#ABC鸡肉45645 4A ABC鸡肉5464564 ABC鸡肉3474#99 ...

回答 1 投票 0

Python:屏蔽电子邮件文本中的命名实体

我创建了一个python脚本来提取命名实体,如下所示:#设置java路径java_path = r'C:/ Program Files / Java / jre1.8.0_161 / bin / java.exe'os.environ ['JAVAHOME'] = java_path#初始化...

回答 1 投票 1

R中的pdf文件如何通过n-gram进行标记

我想用R中的ngrams将pdf文档标记化。我试图按照https://www.tidytextmining.com/ngrams.html上的说明进行操作,但是被unnest_tokens()函数所困扰。 library(tm)...

回答 1 投票 1

将语料库转换为数据帧将返回NA's

我正在尝试将我的语料库转换回一个数据框,但它仅返回NA。请帮助代码:library(wordcloud)df

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.