从文本Python中提取带有某些词的句子

问题描述 投票:0回答:0

我是 ML 的绝对新手,确实遇到了以下问题。我需要训练一个模型,如果这个句子包含某些单词的信息,它可以从文本中提取一个句子(或一段)。

例如:

text = '牛仔裤是蓝色的,很酷。我喜欢牛仔裤牛仔裤要花钱。我穿的牛仔裤很贵。这些牛仔裤要 200 美元,但我喜欢它们'

info = '牛仔裤成本'

result = '这条牛仔裤价值 200 美元'

因此文本中包含重复的单词/短语、缺少标点符号等。如果有的话,我的模型必须找到包含好的信息(带有牛仔裤的价格)的片段并将其返回(不创建答案——只是返回它就是这样)。

我应该从哪里开始?看起来它不是关于命名实体识别或类似的东西,而是更多关于有效的搜索算法。主要问题是定义所需片段的开始和结束位置(因为我不能在这里依赖标点符号或大写字母)。还是我错了?非常感谢任何建议!

谢谢!!

machine-learning deep-learning nlp data-science text-extraction
© www.soinside.com 2019 - 2024. All rights reserved.