我开了一家食品公司的硕士论文。他们从一些成分开始,混合,加热,等等,直到他们最终得到糖果。但有一个问题。对于生产相同的糖果,PLC控制的机器并不总是平稳运行,并且不会给出相同的结果。他们认为水果是一种成分,并不总是100%相同(粘度等)。它们在用于生产之前测量成分的特征。它们还可以测量所有工艺参数(压力,温度,白利糖度等)。这些都是存储的。现在我的论文是使用机器学习模型来检查这些数据以获得更多信息。现在我遇到了一些问题。第一个问题是我实际上没有分类。没有“好糖果”和“坏糖果”这样的东西。第二个问题是我没有真正的输出参数。我有白利糖度值,但就是这样。最后一个问题是:成分是我模型的输入功能,但过程特色,这些输入也是吗?或者我应该把它留在后面?
非常感谢你的帮助!
第一个问题是我实际上没有分类。没有“好糖果”和“坏糖果”这样的东西。
公司如何决定什么是充足的?您需要确定用于将糖果标记为“坏”或“好”的标准。如果您没有任何标签,则可能需要寻找无监督学习技术,如聚类分析或因子分析。
第二个问题是我没有真正的输出参数。我有白利糖度值,但就是这样。
根据您的任务,您必须考虑目标值是什么。对于分类,它将是糖果的标签。因此,'坏'或'好'的糖果。对于回归问题,您需要持续的东西(例如,如果这与您的目标相关,则为白利糖度值)。对于无监督学习,您不需要输出变量。
最后一个问题是:成分是我模型的输入功能,但过程特色,这些输入也是吗?或者我应该把它留在后面?
你必须查看你拥有的所有变量,并确定如果糖果是“好”或“坏”,哪些变量可以保存有价值的信息。这是您需要收集的特定领域知识。你可以问问公司的人。他们应该能够告诉你什么是重要的。您还可以查看所有参数的统计信息。应识别与糖果质量相关的参数。可以忽略不显示大量变化的参数(例如温度总是恒定的)。