我目前正在从事一个项目,该项目涉及将用户输入描述映射到特定的零件编号类别。我有大量零件号及其相关描述的数据集。这是数据的示例:
"52119A": "COVER, FRONT BUMPER",
"81110": "HEADLAMP ASSY, RH",
"52134I": "REINFORCEMENT, FRONT BUMPER BAR, LH"
"53301F": "PANEL SUB-ASSY, FRONT",
"87050": "RADIATOR ASSY, AIR CONDITIONER"
挑战是开发一个系统,可以准确地将用户对零件的描述映射到适当的零件号。例如,如果用户输入“FRONT BUMPER COVER”,系统应该能够将其翻译为“52119A”:“COVER, FRONT BUMPER”。
我正在考虑使用自然语言处理 (NLP) 或某种人工智能来解决这个问题,但我不确定最佳方法。具体来说,我希望得到以下方面的指导:
什么类型的 NLP 或 AI 模型最适合这项任务?
我应该如何训练模型?我需要什么样的训练数据,需要多少?
哪些库或工具会有用?我对基于 Python 的库有一点熟悉(我使用过 NLTK 和 SpaCy - 如果它们更好,我愿意使用其他库)。
是否有任何类似的项目或资源可供我参考,以更好地理解如何解决这个问题?
提前致谢,
弥敦道
从简单的
TF-IDF
(或count vectorizer
/ BOW)开始。如果你的用户查询看起来更像自然文本,你可以考虑使用更复杂的方法;并使用类似
BERT
的模型,用于多类分类任务。
要回答您的问题,这些模型需要数千个数据样本。 您应该从您为其构建的系统/应用程序/平台获得这些数据。如果您没有任何数据,您可以创建一个合成数据集,或者在 Few-shot 概念下工作。
基于 Python 的库:
NLTK
, Spacy
, Transformers
(HuggingFace), SK-learn
, 等等 - 都很棒。
类似项目:
使用 bert 进行多类文本分类
使用 BERT、RoBERTa、XLNet、XLM 和 DistilBERT 进行多类文本分类
此外,您可以使用 StarCode 获得有关所有这些代码的帮助。