我正在尝试建立一个模型,使用转录的音频和屏幕文本将视频广告分类为政治或非政治,并提取候选人和赞助商的姓名。我该怎么做呢?我想到的一个可能的解决方案是使用常用(或必要的短语)字典,例如“我批准此消息”和“此广告已由...赞助,投票” 并使用 Spacy NER 从这些短语中提取候选人的姓名。 如果有人有任何解决方案/建议,请告诉我。
尝试将广告分类为政治或非政治,并提取候选人的姓名、选区和政党
一旦您拥有文本并创建了一组正确标记的示例,这与任何其他“二进制文本分类”任务相同,您可以在网上找到大量教程/示例。
如果您在尝试将其中一个问题应用于您的数据时遇到特定问题,您可以更好地向 StackOverflow 寻求帮助来解决您面临的任何挑战。