提取出现在一个数据集中但未出现在另一个数据集中的常见关键词

问题描述投票：0回答：1

我有两个数据集： Dataset#1：包含 2670 万条用现代标准阿拉伯语编写的评论的数据集。数据集#2：包含 16K 条评论的数据集，用现代标准阿拉伯语和口语阿拉伯语编写。

我想提取出现在 Dataset#2 中但未出现在 Dataset#1 中的关键字，这意味着我想提取特定领域中阿拉伯语口语的关键字。

最快的方法是什么？

给我提供一些可能有帮助的例子。

nlp extract keyword arabic text-extraction

1个回答

0
投票

这是更正后的文字：

信息不够，但根据您分享的内容，我可以推荐以下内容：

从每个数据集中提取特定领域的关键字（关键字提取）。有时，即使是单词计数器也能完成这项工作。还有其他高级技术，例如
```
TF-IDF
```
、
```
RAKE
```
或
```
TextRank
```
，甚至更高级的方法，例如
```
NER
```
。
- NER（命名实体识别）可能适合您。但是，如果您没有任何预训练模型，则可能需要相当长的时间。
从两个数据集提取的关键字创建两个集合。通过使用集合运算，您可以识别差异。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.