从R中的文本中提取字符级n-gram

问题描述 投票:0回答:1

我有一个带有文本的数据框,我想提取字符级双字母(n = 2),例如R中的每个文本分别为“ st”,“ ac”,“ ck”。

数据:

df$text

[1] "hy my name is"
[2] "stackover flow is great"
[3] "how are you"

    

我有一个带有文本的数据框,我想提取字符级双字母(n = 2),例如R中的每个文本都为“ st”,“ ac”,“ ck”。数据:df $ text [1]“为什么叫我的名字” [2]“ stackover flow非常好” [...

r nlp character n-gram
1个回答
0
投票
我不太确定您在这里的预期输出。我本以为“堆栈”的二元组将是“ st”,“ ta”,“ ac”和“ ck”,因为它捕获了每个连续的对。
© www.soinside.com 2019 - 2024. All rights reserved.