我正在尝试使用readLines
功能删除网页上的正则表达式代码和数字。我为此使用了unlist
功能。但是,我不确定如何删除数字。我当时在考虑使用tm-package
,但似乎缺少格式转换。如何转换我的网页以使用tm删除数字等,或者是否有更简单的方法来删除文本中的多余内容?我希望将许多要阅读的网页连接起来,这样会很干净。
library(rvest)
library(tm)
webpage <- readLines("https://www.sciencedaily.com/releases/2020/02/200219113746.htm",
encoding = "UCS-2LE")
dirtytext <- unlist(strsplit(webpage,"\\r|\\n|\\t"))
cleantext <- tm_map(dirtytext,removeNumbers)
最后一行给出错误信息:
'UseMethod(“ tm_map”,x)中的错误:没有适用于'tm_map'的适用方法应用于“字符”类的对象'
我不确定您是否要包含lede,但以下内容按段落返回故事(删除了广告中文字中包含的所有非故事元素)。
library(rvest)
url <- "https://www.sciencedaily.com/releases/2020/02/200219113746.htm"
page <- read_html(url)
story <- page %>%
html_nodes("div#text p") %>% # use "div#story_text p" to include lede
html_text