我目前正在使用 tm 包进行一些文本挖掘。我希望能够将我的文档术语矩阵导出为数据框,并附加我的语料库元数据(id 变量等)。这是我当前的工作流程:
第 5 点是我陷入困境的地方。我觉得这个包肯定可以实现,但我找不到任何文档。使用tm创建DTM时元数据会丢失吗?
在这里回答我自己的问题,以防其他人忽视我所做的同样的事情。
tm 制作的 DTM 将 doc_id 变量存储为行名称。因此,您可以使用您喜欢的行名称到变量代码来创建新变量,然后使用它作为附加任何其他元数据的键。
一种方法的示例:
dtm<- tibble::rownames_to_column(dtm, var = "doc_id")
我遇到问题,我上传的语料库没有元数据。如何使用 tm 和 Vcorpus 上传元数据?
df <- fread("data_analyse/explorations_7.csv", encoding = 'UTF-8')
text_df <- as.character(df_DM_REP[, 5])
corpus <- VCorpus(VectorSource(text_df))