我有两个数据集: Dataset#1:包含 2670 万条用现代标准阿拉伯语编写的评论的数据集。 数据集#2:包含 16K 条评论的数据集,用现代标准阿拉伯语和口语阿拉伯语编写。
我想提取出现在 Dataset#2 中但未出现在 Dataset#1 中的关键字,这意味着我想提取特定领域中阿拉伯语口语的关键字。
最快的方法是什么?
给我提供一些可能有帮助的例子。
这是更正后的文字:
信息不够,但根据您分享的内容,我可以推荐以下内容:
从每个数据集中提取特定领域的关键字(关键字提取)。有时,即使是单词计数器也能完成这项工作。还有其他高级技术,例如
TF-IDF
、RAKE
或 TextRank
,甚至更高级的方法,例如 NER
。
从两个数据集提取的关键字创建两个集合。通过使用集合运算,您可以识别差异。