text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

如何在R中的字符串之间找到相同的短语

假设我具有以下字符串c(“>程序日期:01/09/2018程序日期:01/10/2018程序日期:03/09/2018程序日期:...

回答 1 投票 0

如何用R中的正确单词替换错误的拼写单词

我知道可能会问类似的问题,但我觉得我的要求很特殊。我有两个数据框,其中拼写错误的单词,还有另一个数据框,其中我已手动更正。 ...

回答 1 投票 1

将文本文档/字符串转换为Python中的数据框

我已使用Apache tika从PDF中提取了此文本。我想以这种方式拆分文本,使每个问题/答案仅得到一行。最终结果必须是表格结构。这是...

回答 1 投票 1

将列表中的元素分组[保留]

我想对列表中的元素进行分组-每个组都有定义的开始和结束:data = ['§349','Abs。','2','4','StPO','1', '3','42','§306a','Abs。','1','Nr。','1','StGB','§306b','Abs .'...

回答 4 投票 -4

如何使用tf-idf选择停用词? (非英语语料库)

我设法评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳词汇?我了解给定单词和文档的低tf-idf意味着...

回答 2 投票 7

如果下一行与相同模式匹配,如何删除具有模式的行?

我有一个数据框,其中有一列包含每行票证的日志。这是日志的示例:99645,\ Submitted 、、 \ 2015年1月1日所做的修改,x_change0:-> info0,y_status1:...

回答 2 投票 1

如何仅使用TfidfVectorizer获得TF?

我有这样的代码:corpus = ['这是第一个文档。','该文档是第二个文档。','这是第三个文档。','这个文档是...

回答 2 投票 0

使用tm()挖掘两个和三个单词短语的PDF

我正在尝试为特定的两个和三个单词短语挖掘一组PDF。我知道这个问题在各种情况下都会被问到,并且该解决方案部分有效。但是,列表不...

回答 1 投票 1

使用R搜索单词的组合

我有一个带有唯一参考和自由文本字符串参考文本1的表。此项非常有趣。 2.该单元格正常。 3. ...

回答 1 投票 -1

安装文本插件时出现橙色错误

我正在尝试在Win10上为Orange(版本3.23)安装Text附加组件(版本0.7.3),但在构建“ ufal_udpipe”时出现以下错误:命令失败:python python -m。 ..

回答 1 投票 0

如何替换字符串中的内部大写字母

我的字符串范围如下:vec

回答 4 投票 4

如何替换字符串中的内部大写字母

我的字符串范围如下:vec

回答 2 投票 0

在Shiny中上传许多文件

我正在开发一个可按主题/主题组织和可视化许多PDF文档的应用程序。我可以上传和阅读一个PDF,但是我很难阅读多个PDF文档。对于单个...

回答 2 投票 4

如何将用户输入到前瞻和正则表达式向后断言

如何连同前瞻/向后断言结合用户输入的正则表达式来获得这个词的背景下? user_term =输入(“输入搜索词:”)字=“你好,这是一个自动生成的...

回答 1 投票 0

我需要帮助丢弃空行,行与数据帧的空白空间

我想从我的数据帧中删除所有的空行。问题是行不完全是空的,有些有一个空间,其他多个空格和换行。这里是一个例子:new_tweetsdf [[35] [1] ...

回答 1 投票 0

似乎无法提取超过88个鸣叫,尽管开采热门关键字

我试图寻找利用当前趋势在我的时间表关键字约20,000鸣叫。不过,我只获得约88鸣叫。这些热门关键字在整个国家......

回答 1 投票 0

解析语音标记树语料库的零件与Python没有NLTK

我有树语料库如下(TOP END_OF_TEXT_UNIT)(TOP(S(NP(DT的)(NNP富尔顿)(NNP县)(NNP大)(NNP陪审团))(VP(VBD说)...

回答 1 投票 0

应用自定义(加权)字典文本基于情感分析

我期待调整此代码,以便我可以把这些情态动词的每一个分配有不同的权重。我们的想法是使用类似NRC库,在这里我们有“数字” 1-5的东西...

回答 1 投票 0

使用R将大文本文件构建到数据框中

我有一个大约20页的文本文件,大约200个段落。每个段落包含三行描述一个人的信息,如:姓名:John年龄:26电话号码:123421姓名:...

回答 2 投票 2

矢量化新的文本数据

我在“棕色语料库”上训练了一个Word2vec模型。我想将矢量化的单词应用到一个新的文本文档中,然后我想通过Affinity Propagation聚类。进口gensim ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.