使用readLines和R中的tm-package清洁Web文本

问题描述 投票:0回答:1

我正在尝试使用readLines功能删除网页上的正则表达式代码和数字。我为此使用了unlist功能。但是,我不确定如何删除数字。我当时在考虑使用tm-package,但似乎缺少格式转换。如何转换我的网页以使用tm删除数字等,或者是否有更简单的方法来删除文本中的多余内容?我希望将许多要阅读的网页连接起来,这样会很干净。

 library(rvest)
 library(tm)
 webpage <- readLines("https://www.sciencedaily.com/releases/2020/02/200219113746.htm", 
             encoding = "UCS-2LE")
 dirtytext <- unlist(strsplit(webpage,"\\r|\\n|\\t"))
 cleantext <- tm_map(dirtytext,removeNumbers)

最后一行给出错误信息:

'UseMethod(“ tm_map”,x)中的错误:没有适用于'tm_map'的适用方法应用于“字符”类的对象'

r url nlp tm readlines
1个回答
0
投票

我不确定您是否要包含lede,但以下内容按段落返回故事(删除了广告中文字中包含的所有非故事元素)。

library(rvest)

url <- "https://www.sciencedaily.com/releases/2020/02/200219113746.htm"

page <- read_html(url)

story <- page %>%
  html_nodes("div#text p") %>%  # use "div#story_text p" to include lede
  html_text
© www.soinside.com 2019 - 2024. All rights reserved.