text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

如何通过考虑多词在文本中的位置来挖掘多词?

我想提取给定文本中介于年份和下一个逗号之间的某些单词。尽管“采矿”一词在2020年之前和之后均出现在文本中,但我需要在后面找到...

回答 1 投票 0

如何从R中的给定文本中挖掘多词?

library(tm)library(stringr)txt

回答 2 投票 0

使用R查找多行图形

我正在尝试跨多行识别模式,准确地说是两行。由于任一行中的模式都不是唯一的,所以我使用了这种方法。到目前为止,我已经尝试过使用...

回答 2 投票 0

正则表达式正在运行,但是代码看起来很可怕

我正在清理一长串名词短语,以便进一步挖掘文本。它们应该是1或2个词的短语,但是有些短语带有/连词。这是我得到的:library(tidyverse)...

回答 1 投票 2

无法将qdap软件包安装到R中

我想安装“ qdap”软件包来运行文本挖掘项目。我尝试以多种不同方式安装软件包:1. intsall.packages(“ qdap”)2.在本地下载文件,然后安装3. ...

回答 1 投票 0

Beautiful Soup:如何从此结构中提取文本:

我想访问title =“中的时间戳文本,并获取此字符串” 23.12.2019 13:05:24“ [

回答 1 投票 0

给出具有多个主题的文本,如何提取特定主题的详细信息

我正在研究毒品评论的情绪分析。每个评论的文字都可以包含一个或多个药物提及。文本包含针对同一疾病的多种相关药物的观点。因此,相同的...

回答 1 投票 0

什么R软件包适合识别与二进制响应变量正相关的单词

我有一个小标题,其中有三列:wine-葡萄酒的名称wine_description-描述葡萄酒的字词(标点符号被去除)-0或1变量1 =评分最高的葡萄酒,0 =否...

回答 2 投票 0

如何解决fastfast-model300的下载问题?

我正在使用Windows 10和python 3.3。我尝试下载fasttext_model300来计算文档之间的软余弦相似度,但是当我运行python文件时,到达此位置后它就停止了...

回答 1 投票 0

如何使用正则表达式在字符串前获取一定数量的字符? (Python)

我正试图从Indeed职位描述中汲取多年经验。几乎所有的描述都列出了这样的经历:“ 0-2年”或“ 2+年”或“ 2年”。无论如何列出,...

回答 2 投票 0

如何在R中找到特定术语与udpipe的共现?

我是udpipe软件包的新手,我认为它对于社会科学具有巨大的潜力。我的一个当前项目,用于研究新闻报道如何撰写有关网络和网络的信息(即人民...

回答 1 投票 0

R中的文本挖掘/单词相关性

我正在尝试在R中使文本挖掘或更确切地说是单词相关性。我要尝试做的更大的事情是,我在整个导出的OpenStreetMap数据库中查询所有具有...的功能”]]

回答 1 投票 0

需要帮助在Python中实现函数

[嘿,我还是python编程的新手。并且我必须提供一些可以检查某个单词并返回另一个单词的函数,例如,如果我输入了单词“ a1”,则该函数将检查...

回答 1 投票 0

一旦dplyr被另一个变量分组后,如何为一个变量组合多个文本条目[重复]

关于数百个问题,我的数据框每天都有数十位计时员输入文本。并非每个计时员每天都会为每个问题输入时间。文本输入可以是任何长度。 ...

回答 1 投票 0

通过带有漂亮汤的aria标签获得评分

我有一个汤对象,例如:r = request.get('https://www.yelp.com/biz/panera-bread-markham')汤= BeautifulSoup(r.text,'html.parser')和我正在尝试从以下代码中找到评分,...

回答 1 投票 0

将非结构化文本的组提取到以后的NLP中?

我是数据挖掘/文本挖掘的新手,所以我不确定我使用的是正确的术语。我试图提出一个提取相关内容组以稍后应用NLP和...

回答 1 投票 0

我如何从GridsearchCV获取feature_importances _

我对编程还很陌生,这个问题可能很容易解决,但是我已经坚持了一段时间,我认为我的方法显然是错误的。如标题所示,我有...

回答 1 投票 1

是否有更好的方法基于R中的关键字对叙述进行分类?

我正在尝试根据某些关键字词典对叙述进行分类。我的方法是在叙述中识别出字符串距离最小的关键字。效果很好,但是我...

回答 1 投票 0

使用txt文件作为源时的Tidytext unnest_tokens错误

对这个主题来说是新的。我在tidytext包中使用unnest_tokens函数遇到麻烦。我有一些要分析的.txt格式的文本。一个例子是把...

回答 1 投票 0

TypeError:不可散列的类型:训练word2vec中的'list'

我编写了此函数,并得到TypeError:不可哈希类型:'list'。我该如何解决? def get_words(txt):a =(lambda x:x不在STOP_WORDS中),re.findall(r'\ b(\ w +)\ b',txt)返回def ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.