在人工智能和机器学习方面,有监督和无监督学习有什么区别?您能举例说明一个基本的,简单的解释吗?
既然你问这个非常基本的问题,看起来值得指出机器学习本身是什么。
机器学习是一类数据驱动的算法,即与“普通”算法不同,它是“告诉”什么是“好答案”的数据。示例:用于图像中的面部检测的假设非机器学习算法将尝试定义面部是什么(圆形皮肤状彩色圆盘,具有您期望眼睛的暗区等)。机器学习算法不会有这样的编码定义,但会“逐个学习”:你会展示几个面部和非面部的图像,一个好的算法最终会学习并能够预测是否看不见图像是一张脸。
这个特殊的人脸检测示例受到监督,这意味着您的示例必须标记,或明确说明哪些是面,哪些不是。
在无监督算法中,您的示例没有标记,即您没有说什么。当然,在这种情况下,算法本身不能“发明”面部是什么,但是它可以尝试将数据分成不同的组,例如,它可以区分面部与景观非常不同,景观与马匹非常不同。
由于另一个答案提到它(虽然,以不正确的方式):有“中间”形式的监督,即半监督和主动学习。从技术上讲,这些是监督方法,其中有一些“智能”方法来避免大量标记的例子。在主动学习中,算法本身决定你应该标记哪个东西(例如,它可以非常确定景观和马,但它可能会要求你确认大猩猩是否确实是一张脸的图片)。在半监督学习中,有两种不同的算法从标记的例子开始,然后相互“告诉”他们对大量未标记数据的思考方式。从这个“讨论”他们学到了。
监督学习:您将各种标记的示例数据作为输入,以及正确的答案。该算法将从中学习,并根据此后的输入开始预测正确的结果。示例:电子邮件垃圾邮件过滤器
无监督学习:您只需提供数据而不会告诉任何内容 - 例如标签或正确答案。算法自动分析数据中的模式。示例:Google新闻
我会尽量保持简单。
监督学习:在这种学习技术中,我们得到一个数据集,系统已经知道数据集的正确输出。所以在这里,我们的系统通过预测自己的价值来学习。然后,它通过使用成本函数来检查其预测与实际输出的接近程度,从而进行精度检查。
无监督学习:在这种方法中,我们很少或根本不知道我们的结果是什么。因此,我们从数据中导出结构,我们不知道变量的影响。我们通过基于数据中变量之间的关系对数据进行聚类来构建结构。在这里,我们没有基于我们预测的反馈。
有监督的学习,给出答案的数据。
如果邮件标记为垃圾邮件/非垃圾邮件,请学习垃圾邮件过滤器
给定被诊断为患有或不患有糖尿病的患者的数据集,学习将新患者分类为患有或不患有糖尿病。
无监督学习,给定数据没有答案,让电脑分组。
鉴于在网络上发现的一组新闻文章,将关于同一故事的文章分组。
给定自定义数据数据库,自动发现细分市场并将客户分组到不同的细分市场。
监督学习
在此,用于训练网络的每个输入模式与输出模式相关联,输出模式是目标或期望模式。当在网络的计算输出和正确的预期输出之间进行比较时,假定教师在学习过程中出现,以确定错误。然后,该错误可用于更改网络参数,从而提高性能。
无监督学习
在该学习方法中,目标输出不呈现给网络。似乎没有教师提供所需的模式,因此,系统通过发现和适应输入模式中的结构特征来学习它自己。
您有输入x和目标输出t。因此,您训练算法以概括到缺失的部分。它受到监督,因为给出了目标。你是告诉算法的主管:对于例子x,你应该输出t!
虽然分段,聚类和压缩通常都是按此方向计算的,但我很难为它提出一个好的定义。
我们以Reference为例。虽然您只给出了输入x,但是人工工程师如何告诉算法目标也是x。所以在某种意义上,这与监督学习没有什么不同。
对于聚类和分段,我不太确定它是否真的符合机器学习的定义(参见auto-encoders for compression)。
监督学习:说一个孩子去幼儿园。老师给他看了3个玩具屋,球和车。现在老师给了他10个玩具。他将根据他以前的经验将他们分为3盒房子,球和汽车。因此,孩子首先受到老师的监督,以获得几套正确的答案。然后他在未知玩具上接受了测试。 other question
无人监督的学习:再次是幼儿园的例子。给一个孩子10个玩具。他被告知要对类似的人进行细分。因此,基于形状,大小,颜色,功能等特征,他将尝试使3组分别说A,B,C并将它们分组。
Supervise这个词意味着你正在给机器提供监督/指导以帮助它找到答案。一旦它学会了指令,就可以轻松预测新案例。
无监督意味着没有监督或指示如何找到答案/标签,机器将使用其智能来查找我们数据中的某些模式。在这里它不会进行预测,它只会尝试找到具有相似数据的集群。
监督学习:您已经标记了数据并且必须从中学习。例如房屋数据和价格,然后学习预测价格
无监督学习:你必须找到趋势然后预测,没有给出先前的标签。例如,班上不同的人,然后一个新人来到这个新学生所属的群体。
在监督学习中,我们知道输入和输出应该是什么。例如,给定一组汽车。我们必须找出哪些是红色的,哪些是蓝色的。
然而,无监督学习是我们必须在很少或不知道输出应该是什么的情况下找出答案的地方。例如,学习者可能能够构建一个模型,该模型基于面部模式和诸如“你在笑什么?”之类的单词的相关性来检测人们何时在微笑。
监督学习可以基于训练期间的学习将新项目标记到训练的标签之一中。您需要提供大量的训练数据集,验证数据集和测试数据集。如果您提供数字的像素图像矢量以及带有标签的训练数据,那么它可以识别数字。
无监督学习不需要训练数据集。在无监督学习中,它可以基于输入向量的差异将项目分组到不同的群集中。如果您提供数字的像素图像矢量并要求它分类为10个类别,它可能会这样做。但它确实知道如何标记它,因为你没有提供训练标签。
监督学习基本上是输入变量(x)和输出变量(y)的地方,并使用算法来学习从输入到输出的映射函数。我们称之为监督的原因是因为算法从训练数据集中学习,该算法迭代地对训练数据进行预测。监督有两种类型 - 分类和回归。分类是指输出变量是类似yes / no,true / false的类别。回归是指输出是真实值,如人的身高,温度等。
联合国监督学习是我们只有输入数据(X)而没有输出变量的地方。这被称为无监督学习,因为与上面的监督学习不同,没有正确的答案,也没有教师。算法由他们自己设计,以发现并呈现数据中的有趣结构。
无监督学习的类型是聚类和关联。
监督学习是指您为算法提供的数据被“标记”或“标记”,以帮助您的逻辑做出决策。
示例:贝叶斯垃圾邮件过滤,您必须将项目标记为垃圾邮件以优化结果。
无监督学习是一种算法类型,它们试图在没有原始数据之外的任何外部输入的情况下找到相关性。
示例:数据挖掘聚类算法。
监督学习基本上是一种技术,其中机器学习的训练数据已被标记为假设一个简单的偶数奇数分类器,您已经在训练期间对数据进行了分类。因此它使用“LABELED”数据。
相反,无监督学习是一种技术,其中机器本身标记数据。或者你可以说机器从头开始自学。
在简单监督学习是机器学习问题的类型,其中我们有一些标签,并通过使用该标签我们实现回归和分类等算法。分类应用于我们的输出像0或1,真/假的形式,是/否。并且回归适用于那些将真正的价值放在这样一个价格之家的地方
无监督学习是一种机器学习问题,我们没有任何标签意味着我们只有一些数据,非结构化数据,我们必须使用各种无监督算法对数据进行聚类(数据分组)
监督机器学习
“算法从训练数据集中学习并预测输出的过程。”
预测输出的准确度与训练数据成正比(长度)
监督学习是输入变量(x)(训练数据集)和输出变量(Y)(测试数据集)的地方,您使用算法来学习从输入到输出的映射函数。
主要类型:
算法:
Y = f(X)
Neural Networks
Naïve Bayes classifiers
Fisher linear discriminant
KNN
Decision Tree
Super Vector Machines
应用领域:
监督学习:
监督学习算法分析训练数据并产生推断函数,该函数可用于映射新示例。
问题类别:
回归:预测连续输出中的结果=>将输入变量映射到某个连续函数。
例:
给出一个人的照片,预测他的年龄
分类:预测离散输出结果=>将输入变量映射为离散类别
例:
这个肿瘤会变成癌症吗?
Nearest neighbor
Linear Regression,Multi Regression
无监督学习:
无监督学习从未经标记,分类或分类的测试数据中学习。无监督学习可识别数据中的共性,并根据每个新数据中是否存在此类共性做出反应。
问题类别:
聚类:将一组对象分组的任务是使同一组(称为集群)中的对象(在某种意义上)与其他组(集群)中的对象更相似(在某种意义上)
例:
收集1,000,000个不同的基因,并找到一种方法将这些基因自动分组到不同的相似或相关的不同变量组,如寿命,位置,角色等。
这里列出了常用的用例。
参考文献:
Difference between classification and clustering in data mining?
监督学习
无监督学习
例:
监督学习:
无监督学习:
简单来说.. :)这是我的理解,随意纠正。有监督的学习是,我们知道我们根据提供的数据预测的是什么。所以我们在数据集中有一个需要预测的列。无监督学习是我们尝试从提供的数据集中提取意义。我们无法明确预测的内容。所以问题是我们为什么要这样做?:)答案是 - 无监督学习的结果是群组/群集(类似的数据在一起)。因此,如果我们收到任何新数据,我们会将其与已识别的群集/群组相关联,并了解其功能。
我希望它会对你有所帮助。
监督学习
监督学习是我们知道原始输入的输出的地方,即数据被标记为在机器学习模型的训练期间它将理解在给定输出中需要检测的内容,并且它将在训练期间引导系统。在此基础上检测预先标记的对象,它将检测我们在训练中提供的类似对象。
这里的算法将知道数据的结构和模式是什么。监督学习用于分类
作为一个例子,我们可以有一个形状为正方形,圆形,三角形的不同对象,我们的任务是排列相同类型的形状,标记数据集标记了所有形状,我们将在该数据集上训练机器学习模型,基于训练日期,它将开始检测形状。
无监督学习
无监督学习是一种无指导学习,其最终结果未知,它将聚类数据集,并基于对象的相似属性,它将对象分成不同的束并检测对象。
这里算法将搜索原始数据中的不同模式,并基于它将集群数据。非监督学习用于聚类。
作为一个例子,我们可以有多个形状的方形,圆形,三角形的不同对象,因此它将根据对象属性制作束,如果一个对象有四个边,它会认为它是方形的,如果它有三个边三角形和如果没有圆圈,这里的数据没有标注,它将学习自己检测各种形状
其中训练数据包括输入矢量的示例以及它们对应的目标矢量的应用被称为监督学习问题。
在其他模式识别问题中,训练数据由一组输入矢量x组成,没有任何相应的目标值。这种无监督学习问题的目标可能是在数据中发现类似示例的组,其中称为聚类
模式识别与机器学习(Bishop,2006)
在监督学习中,输入cluster具有预期结果x
(即,当输入为y
时模型应该产生的输出),其通常被称为相应输入的“类”(或“标签”) x
。
在无监督学习中,没有提供示例x
的“类”。因此,无监督学习可以被认为是在未标记数据集中找到“隐藏结构”。
监督学习的方法包括:
无监督学习的方法包括:
例如,经常训练神经网络是监督学习:你告诉网络哪个类对应你正在喂食的特征向量。
聚类是无监督学习:您让算法决定如何将样本分组到共享公共属性的类中。
另一个无监督学习的例子是x
。
我可以告诉你一个例子。
假设您需要识别哪辆车是汽车,哪辆是摩托车。
在监督学习案例中,您的输入(训练)数据集需要进行标记,也就是说,对于输入(训练)数据集中的每个输入元素,您应指定它是代表汽车还是摩托车。
在无监督学习案例中,您不标记输入。无监督模型将输入聚类成基于例如聚类的聚类。关于类似的功能/属性。因此,在这种情况下,没有像“汽车”这样的标签。
我一直认为无监督和有监督的学习之间的区别是任意的,有点令人困惑。两种情况之间没有真正的区别,相反,存在一系列情况,其中算法可以具有或多或少的“监督”。半监督学习的存在是线条模糊的一个明显例子。
我倾向于将监督视为向算法提供关于应该首选哪些解决方案的反馈。对于传统的监督设置,例如垃圾邮件检测,您可以告诉算法“不要在训练集上犯任何错误”;对于传统的无监督设置,例如聚类,您可以告诉算法“彼此接近的点应该在同一个集群中”。事实恰恰相反,第一种形式的反馈比后者更具体。
简而言之,当有人说'监督'时,想一下分类,当他们说'无人监督'时会想到群集,并且尽量不要过分担心。
机器学习:它探索了可以从数据中学习和预测数据的算法的研究和构建。这些算法通过从示例输入构建模型来运行,以便将数据驱动的预测或决策表达为输出,而不是严格遵循静态程序说明。
监督学习:从标记的训练数据推断功能的机器学习任务。训练数据由一组训练样例组成。在监督学习中,每个示例是由输入对象(通常是向量)和期望输出值(也称为监督信号)组成的对。监督学习算法分析训练数据并产生推断函数,该函数可用于映射新示例。
计算机具有示例输入及其所需输出,由“教师”给出,目的是学习将输入映射到输出的一般规则。具体而言,监督学习算法采用一组已知的输入数据和已知响应对数据(输出)进行训练,并训练模型以生成对新数据响应的合理预测。
无监督学习:没有老师就是学习。您可能想要对数据执行的一个基本操作是将其可视化。从无标签数据推断隐藏结构的函数是机器学习任务。由于给予学习者的示例未标记,因此没有错误或奖励信号来评估潜在的解决方案。这将无监督学习与有监督学习区分开来。无监督学习使用试图找到模式的自然分区的过程。
在无监督学习的情况下,没有基于预测结果的反馈,即没有教师可以纠正你。在无监督学习方法下,没有提供标记的例子,在学习过程中没有输出的概念。结果,由学习方案/模型来查找模式或发现输入数据的组
当您需要大量数据来训练模型时,您应该使用无监督学习方法,以及实验和探索的意愿和能力,当然还有通过更成熟的方法无法很好解决的挑战。无监督学习它可以学习比监督学习更大更复杂的模型.Kohonen's self organizing maps就是一个很好的例子
.
监督学习
监督学习基于训练来自数据源的数据样本,并且已经分配了正确的分类。这些技术用于前馈或多层感知器(MLP)模型。这些MLP有三个鲜明的特点:
这些特征以及通过培训学习解决了困难和多样化的问题。通过监督的ANN模型中的训练来学习也称为误差反向传播算法。误差校正学习算法基于输入 - 输出样本训练网络并找到误差信号,该误差信号是计算的输出和期望输出的差异,并且调整与误差的乘积成比例的神经元的突触权重。信号和突触权重的输入实例。基于这个原理,误差反向传播学习发生在两个过程中:
转发通行证:
这里,输入向量被呈现给网络。这个输入信号通过神经元向前传播神经元,并作为输出信号出现在网络的输出端:Here,其中y(n) = φ(v(n))
是由v(n)
定义的神经元的诱导局部场。在输出层o计算的输出( n)与期望的响应v(n) =Σ w(n)y(n).
进行比较,并找到该神经元的误差d(n)
。在该过程中网络的突触权重保持相同。
落后通行证:
在该层的输出神经元处产生的误差信号通过网络向后传播。这计算每层中每个神经元的局部梯度,并允许网络的突触权重根据delta规则进行更改,如下所示:
e(n)
这种递归计算继续进行,前向传递后跟每个输入模式的反向传递,直到网络收敛为止。
人工神经网络的监督学习范例是有效的,可以找到几个线性和非线性问题的解决方案,如分类,工厂控制,预测,预测,机器人等。
无监督学习
自组织神经网络学习使用无监督学习算法来识别未标记输入数据中的隐藏模式。这种无监督指的是学习和组织信息而不提供错误信号来评估潜在解决方案的能力。在无监督学习中缺乏学习算法的方向有时可能是有利的,因为它允许算法回顾先前未考虑过的模式。自组织映射(SOM)的主要特征是:
计算层也称为竞争层,因为层中的神经元彼此竞争变得活跃。因此,这种学习算法称为竞争算法。 SOM中的无监督算法分三个阶段进行:
竞争阶段:
对于呈现给网络的每个输入模式Δw(n) = η * δ(n) * y(n).
,计算具有突触权重x
的内积,并且竞争层中的神经元发现判别函数,其诱导神经元之间的竞争和接近输入向量的突触权重向量。欧几里德距离宣布为比赛的冠军。那神经元被称为最佳匹配神经元,
w
合作阶段:
获胜的神经元决定了协同神经元的拓扑邻域i.e. x = arg min ║x - w║.
的中心。这是通过协同神经元之间的横向相互作用h
来执行的。这个拓扑邻域在一段时间内减小了它的大小。
适应阶段:
通过适当的突触权重调整,使获胜神经元及其邻域神经元能够增加与输入模式相关的判别函数的个体值,
d
在重复呈现训练模式时,突触权重向量倾向于遵循由于邻域更新而导致的输入模式的分布,因此ANN在没有主管的情况下学习。
自组织模型自然地表示神经生物学行为,因此被用于许多现实世界的应用,例如聚类,语音识别,纹理分割,矢量编码等。
Δw = ηh(x)(x –w).