我正在尝试帮助学生分析 Europress 以 HTML 页面形式提供的语料库。要清理语料库,我正在尝试遵循本教程:https://quanti.hypotheses.org/author/croquebert。我收取了所有 apckages 但代码在 R 中对我不起作用但最重要的是我试图了解它的构造。 有人可以告诉我在哪里可以得到关于他使用的功能的教程,以便能够阅读和清理 HTML 语料库? 我迷失在第一行
your text
里尔<- function(html) {
your text
医生<- htmlParse(html) # On parse le document
your text
文章<- getNodeSet(doc, "//article") # On récupère chaque article séparément
your text
杂志 <- sapply(articles, function(art) {
your text
杂志 <- xpathSApply(art, "./header/div[1]/span/text()", xmlValue)
your text
杂志[[1]]
your text
})*
开始他调用的第一个“函数(html)”是什么? 谢谢 洛朗
我尝试了 r markdown 中的代码,但缺少一些东西,因为绿色按钮没有出现