我是 ML 的绝对新手,确实遇到了以下问题。我需要训练一个模型,如果这个句子包含某些单词的信息,它可以从文本中提取一个句子(或一段)。
例如:
text = '牛仔裤是蓝色的,很酷。我喜欢牛仔裤牛仔裤要花钱。我穿的牛仔裤很贵。这些牛仔裤要 200 美元,但我喜欢它们'
info = '牛仔裤成本'
result = '这条牛仔裤价值 200 美元'
因此文本中包含重复的单词/短语、缺少标点符号等。如果有的话,我的模型必须找到包含好的信息(带有牛仔裤的价格)的片段并将其返回(不创建答案——只是返回它就是这样)。
我应该从哪里开始?看起来它不是关于命名实体识别或类似的东西,而是更多关于有效的搜索算法。主要问题是定义所需片段的开始和结束位置(因为我不能在这里依赖标点符号或大写字母)。还是我错了?非常感谢任何建议!
谢谢!!