自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
假设我使用以下方法构建了 BERTopic 模型 从 bertopic 导入 BERTopic topic_model = BERTopic(n_gram_range=(1, 1), nr_topics=20) 主题,概率= topic_model.fit_transform(文档) 检查问题给了我...
我想制作一个只能理解“上”、“下”、“左”、“右”4个单词的AI机器人。 因为我的朋友制作了一个 python 脚本,它通过声音执行一些任务,比如打开 youtube,只需说“Youtu...
我想在酒吧环境中实现一个人机语音对话系统,该系统将用户的文本短语作为输入(对给定产品的请求:薯条、可乐、水、咖啡等...... .
我有包含 1000 个文本行的数据框。 df['文本'] 我还有 5 个单词,我想知道每个单词代表文本的程度(0 到 1 之间) 每个分数都将在 df["word1...
如果我的措辞很糟糕,请原谅我,但我正在尝试找出如何从我制作的字典中的一组单词中确定英语中最常用的单词。我做了一些研究...
我正在重新训练 GPT2 语言模型,并正在关注此博客: https://towardsdatascience.com/train-gpt-2-in-your-own-language-fc6ad4d60171 在这里,他们在 GPT2 上训练了一个网络,而我是
我希望分析客户支持票以了解产品差距/功能,或者我可以在产品中进行哪些增强来解决客户痛点/问题。 但就像你了解客户一样
如何使用 python 使用 spaCy 正确识别令牌的实体类型?
我使用 spaCy 从文本描述中提取和识别实体类型(如 ORG、GPE、DATE 等)。但是,我注意到一些不正确的结果,并且我不确定如何解决这个问题。 这是...
我正在使用 bert 模型对输入单词进行标记。 代码是: tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased',do_lower_case = False) 模型 = BertModel.from_pretrained("
我正在尝试找到专门用于地理空间或位置实体的最佳预训练 Hugging Face Transformer 模型,以从文本中提取英文位置实体。有效果吗
我正在尝试使用 fairseq-train 微调 IndicTrans2 模型,但我不断遇到以下错误: fairseq-train:错误:参数 --user-dir:无效 可选值:'C:/Users/sasid/
运行时错误:“张量的元素 0 不需要 grad 并且没有 grad_fn”
我在使用 PyTorch Lightning 和预训练的 BERT 模型训练评论分类模型时遇到问题。 我在训练过程中遇到了如下错误: 运行时错误:
我有包含 1000 个文本行的数据框。 我做了 word2vec 。 现在我想创建一个新字段,它可以给出每个句子到我想要的单词的距离,比如说“king”这个词。 我
我有包含 1000 个文本行的数据框。 我做了 word2vec 。 现在我想创建一个新字段,它可以给出每个句子到我想要的单词的距离,比如说“king”这个词。 我
我已经从 nltk.corpus 导入了停用词,但出现 STOPWORDS is not Defined 错误。下面是我的代码: 导入nltk 从 nltk.corpus 导入停用词 #创建停用词列表: 停用词=设置(STOPW...
我有包含 1000 个文本行的数据框。 我做了 word2vec 。 现在我想创建一个新字段,它可以给出每个句子到我想要的单词的距离,比如说“king”这个词。 我
我有两组单词列表 - 第一组称为搜索词,第二组称为关键词。我的目标是计算关键词10个字以内的搜索词频率。例如,
使用 NLTK 和 Python 从自由文本中提取关键字/短语进行结构化查询
我想解释自由文本中的特定关键字,例如“我想从最近的餐馆订购煮鸡蛋和菠菜汤”,并使用它们从我的数据库中搜索内容。 例如...
我必须从随机文本中识别国家/地区名称。我有国家名单。 我正在努力寻找一种可以在国家/地区列表上训练模型的解决方案,当我提供随机文本时......
“实体表面形式”这个术语在大多数关系提取论文中都被反复提及。这是什么意思? 例如,在 REBEL 论文中,作者提到“一种关系...