使用 R 加载和清理 Europress 语料库的 xml2 包教程

Question

我正在尝试帮助学生分析 Europress 以 HTML 页面形式提供的语料库。要清理语料库，我正在尝试遵循本教程：https://quanti.hypotheses.org/author/croquebert。我收取了所有 apckages 但代码在 R 中对我不起作用但最重要的是我试图了解它的构造。有人可以告诉我在哪里可以得到关于他使用的功能的教程，以便能够阅读和清理 HTML 语料库？我迷失在第一行

your text

里尔<- function(html) {

your text

医生<- htmlParse(html) # On parse le document

your text

文章<- getNodeSet(doc, "//article") # On récupère chaque article séparément

your text

杂志 <- sapply(articles, function(art) {

your text

杂志 <- xpathSApply(art, "./header/div[1]/span/text()", xmlValue)

your text

杂志[[1]]

your text

})*

开始他调用的第一个“函数（html）”是什么？谢谢洛朗

我尝试了 r markdown 中的代码，但缺少一些东西，因为绿色按钮没有出现

使用 R 加载和清理 Europress 语料库的 xml2 包教程

问题描述投票：0回答：0

最新问题

使用 R 加载和清理 Europress 语料库的 xml2 包教程

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0