使用readLines和R中的tm-package清洁Web文本

Question

我正在尝试使用readLines功能删除网页上的正则表达式代码和数字。我为此使用了unlist功能。但是，我不确定如何删除数字。我当时在考虑使用tm-package，但似乎缺少格式转换。如何转换我的网页以使用tm删除数字等，或者是否有更简单的方法来删除文本中的多余内容？我希望将许多要阅读的网页连接起来，这样会很干净。

 library(rvest)
 library(tm)
 webpage <- readLines("https://www.sciencedaily.com/releases/2020/02/200219113746.htm", 
             encoding = "UCS-2LE")
 dirtytext <- unlist(strsplit(webpage,"\\r|\\n|\\t"))
 cleantext <- tm_map(dirtytext,removeNumbers)

最后一行给出错误信息：

'UseMethod（“ tm_map”，x）中的错误：没有适用于'tm_map'的适用方法应用于“字符”类的对象'

Answer 1

我不确定您是否要包含lede，但以下内容按段落返回故事（删除了广告中文字中包含的所有非故事元素）。

library(rvest)

url <- "https://www.sciencedaily.com/releases/2020/02/200219113746.htm"

page <- read_html(url)

story <- page %>%
  html_nodes("div#text p") %>%  # use "div#story_text p" to include lede
  html_text

使用readLines和R中的tm-package清洁Web文本

问题描述投票：0回答：1

1个回答

最新问题

使用readLines和R中的tm-package清洁Web文本

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1