我正在对文本数据进行分类,并希望将其输入模型中,但是我遇到了问题。我不想使用CountVectorizer,因为它不保留其结构,也不想由于效率低下而将每个单词手动转换为数组。
我可以使用哪些方法在这种情况下有所帮助。
谢谢
这不是问题的直接答案,但提供了一个见解。如果单词顺序比单词袋方法重要,那么使用基于图的模型将有所帮助。例如,pycrfsuite是一个很好的起点。