我有一个包含一组文本句子的arff文件。我想获得每个句子中每个单词的绝对频率。我使用了StringToWordVector。
这是起始文件
@relation dataset
@attribute Text string
@date
'I'm a movie lover and this is one of the best museums in which ...
运行StringToWordVector后,我得到这种类型的实例:
@relation dataset1
@attribute word numeric
...
{13 2, 19 2, 30 2, 33 1, 53 1, 55 4, 60 1, 61 2, 72 3, 78 1, 89 1, 90 1, 99
1, 106 1,120 1,121 1,123 2,124 5,126 2,136 1,140 1,147 5,148 2,160 1,186
1,198 1,202 1,248 9,253 1, ...}
由于我想跟踪单词,而不是使用数字id,如何将文本单词与执行stringtowordvector命令后获得的频率相关联?
Weka邮件列表上也提到了这个问题:
https://list.waikato.ac.nz/pipermail/wekalist/2019-April/047670.html
StringToWordVector以稀疏格式输出数据,其中第一个值是属性的从0开始的索引,第二个值是实际值:
https://waikato.github.io/weka-wiki/arff_stable/#sparse-arff-files