R 运行 quanteda.textstats 时 validObject 出现错误

问题描述 投票:0回答:1

我有大约 2000 个文本文件。当我跑步时

textstat_summary
我遇到了以下问题并且不确定下一步该做什么。我可以以某种方式识别出问题来自这个特定文件(也许还有更多)。

Error in validObject(.Object) : 
  invalid class “dfm” object: first element of 'p' slot is not 0

这是我的代码。

由于这个问题来自一个特定的文件,我将其附在这里供您参考:链接

任何修复错误的建议都值得赞赏。

library(quanteda)
library(quanteda.textstats)
library(tidyverse)

mlist <- list.files(pattern = "\\.txt$", full.names = TRUE)
file_names <- character()
contents <- character()
for (file in mlist) {
  content <- read_lines(file, skip = 7) 
  content <- paste(content, collapse = "\n")
  file_names <- c(file_names, basename(file))
  contents <- c(contents, content)
}

cb_list <- data.frame(filename = file_names, content = contents, stringsAsFactors = FALSE)
cb_list <- cb_list |>
  mutate(co_cik = str_extract(filename, "\\d+_")) |>
  mutate(filing_date = str_extract(filename, "_....-..-.._"))

cb_list$co_cik <- str_remove_all(cb_list$co_cik, "_")
cb_list$filing_date <- str_remove_all(cb_list$filing_date, "_")

crps <- corpus(cb_list, docid_field = "filename", text_field = "content")

text_stat_summary_cb_list <- textstat_summary(crps)
r dataframe error-handling quanteda
1个回答
0
投票

我在运行大量文本文件时遇到了同样的问题。数量少没问题。

© www.soinside.com 2019 - 2024. All rights reserved.