文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。
我想提取给定文本中介于年份和下一个逗号之间的某些单词。尽管“采矿”一词在2020年之前和之后均出现在文本中,但我需要在后面找到...
我正在尝试跨多行识别模式,准确地说是两行。由于任一行中的模式都不是唯一的,所以我使用了这种方法。到目前为止,我已经尝试过使用...
我正在清理一长串名词短语,以便进一步挖掘文本。它们应该是1或2个词的短语,但是有些短语带有/连词。这是我得到的:library(tidyverse)...
我想安装“ qdap”软件包来运行文本挖掘项目。我尝试以多种不同方式安装软件包:1. intsall.packages(“ qdap”)2.在本地下载文件,然后安装3. ...
我想访问title =“中的时间戳文本,并获取此字符串” 23.12.2019 13:05:24“ [
我正在研究毒品评论的情绪分析。每个评论的文字都可以包含一个或多个药物提及。文本包含针对同一疾病的多种相关药物的观点。因此,相同的...
我有一个小标题,其中有三列:wine-葡萄酒的名称wine_description-描述葡萄酒的字词(标点符号被去除)-0或1变量1 =评分最高的葡萄酒,0 =否...
我正在使用Windows 10和python 3.3。我尝试下载fasttext_model300来计算文档之间的软余弦相似度,但是当我运行python文件时,到达此位置后它就停止了...
如何使用正则表达式在字符串前获取一定数量的字符? (Python)
我正试图从Indeed职位描述中汲取多年经验。几乎所有的描述都列出了这样的经历:“ 0-2年”或“ 2+年”或“ 2年”。无论如何列出,...
我是udpipe软件包的新手,我认为它对于社会科学具有巨大的潜力。我的一个当前项目,用于研究新闻报道如何撰写有关网络和网络的信息(即人民...
我正在尝试在R中使文本挖掘或更确切地说是单词相关性。我要尝试做的更大的事情是,我在整个导出的OpenStreetMap数据库中查询所有具有...的功能”]]
[嘿,我还是python编程的新手。并且我必须提供一些可以检查某个单词并返回另一个单词的函数,例如,如果我输入了单词“ a1”,则该函数将检查...
一旦dplyr被另一个变量分组后,如何为一个变量组合多个文本条目[重复]
关于数百个问题,我的数据框每天都有数十位计时员输入文本。并非每个计时员每天都会为每个问题输入时间。文本输入可以是任何长度。 ...
我有一个汤对象,例如:r = request.get('https://www.yelp.com/biz/panera-bread-markham')汤= BeautifulSoup(r.text,'html.parser')和我正在尝试从以下代码中找到评分,...
我是数据挖掘/文本挖掘的新手,所以我不确定我使用的是正确的术语。我试图提出一个提取相关内容组以稍后应用NLP和...
我如何从GridsearchCV获取feature_importances _
我对编程还很陌生,这个问题可能很容易解决,但是我已经坚持了一段时间,我认为我的方法显然是错误的。如标题所示,我有...
我正在尝试根据某些关键字词典对叙述进行分类。我的方法是在叙述中识别出字符串距离最小的关键字。效果很好,但是我...
使用txt文件作为源时的Tidytext unnest_tokens错误
对这个主题来说是新的。我在tidytext包中使用unnest_tokens函数遇到麻烦。我有一些要分析的.txt格式的文本。一个例子是把...
TypeError:不可散列的类型:训练word2vec中的'list'
我编写了此函数,并得到TypeError:不可哈希类型:'list'。我该如何解决? def get_words(txt):a =(lambda x:x不在STOP_WORDS中),re.findall(r'\ b(\ w +)\ b',txt)返回def ...