如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中

Question

我目前正在使用 tm 包进行一些文本挖掘。我希望能够将我的文档术语矩阵导出为数据框，并附加我的语料库元数据（id 变量等）。这是我当前的工作流程：

第 5 点是我陷入困境的地方。我觉得这个包肯定可以实现，但我找不到任何文档。使用tm创建DTM时元数据会丢失吗？

Answer 1

在这里回答我自己的问题，以防其他人忽视我所做的同样的事情。

tm 制作的 DTM 将 doc_id 变量存储为行名称。因此，您可以使用您喜欢的行名称到变量代码来创建新变量，然后使用它作为附加任何其他元数据的键。

一种方法的示例：

dtm<- tibble::rownames_to_column(dtm, var = "doc_id")

Answer 2

我遇到问题，我上传的语料库没有元数据。如何使用 tm 和 Vcorpus 上传元数据？

df <- fread("data_analyse/explorations_7.csv", encoding = 'UTF-8')
text_df <- as.character(df_DM_REP[, 5])
corpus <- VCorpus(VectorSource(text_df))