机器学习定义

  • Tom Mitchell给出了一个更现代的定义:“听说,一个计算机程序从经历E中学习某些类型的使命T和功能衡量P,假如它在使命T中的功能(用P衡量)跟着经历E的提高而提高的话。”
  • 经历E:程序不计其数次的操练得到的经历
  • 使命T:计算机练习时所做的使命
  • 功能衡量P:计算机练习完结后做下一次使命完结的概率
    例如:玩跳棋。
    E =下棋的经历
    T =下跳棋的使命。
    P =程序赢得下一场竞赛的概率。

简单说,监督学习这个主意是指,咱们将教计算机如何去完结使命,而在无监督学习中,咱们打算让它自己进行学习。

监督学习

  • 在监督学习中,咱们得到一个数据集,并且现已知道咱们的正确输出应该是什么样的,知道输入和输出之间存在联系。
  • 其基本思想是,监督学习中,关于数据会集的每个数据, 都有相应的正确答案,(练习集) 算法便是基于这些来做出猜测。

监督学习问题分为“回归”问题和“分类”问题。在回归问题中,咱们试图猜测接连输出中的成果,这意味着咱们试图将输入变量映射到某个接连函数。在分类问题中,咱们试图猜测离散输出的成果。换句话说,咱们试图将输入变量映射到离散类别中。

  1. 分类问题。 分类是要猜测一个离散值输出。 (0或1)
  2. 回归问题。 即经过回归来猜测一个接连值输出

示例1:
依据房地产市场上房子大小的数据,试着猜测它们的价格。价格作为规模的函数是一个接连的输出,所以这是一个回归问题。
咱们能够把这个比如变成一个分类问题,咱们能够输出房子的“售价是高于仍是低于要价”。这里咱们依据房价将房子分为两类。
示例2:
(a)回归- -给定一张人的相片,咱们必须依据给定的相片猜测他们的年纪
(b)分类-给定一个肿瘤患者,咱们必须猜测肿瘤是恶性仍是良性。

无监督学习

无监督学习,咱们没有提前告知这个算法,这些是第一类,这些是第二类,这些是第三类等等,相反咱们只是告诉算法,你看。这儿有一堆数据,我不知道这个数据是什么东东,我不知道里边都有些什么类型,叫什么姓名,我乃至不知道都有哪些类型,可是,请问你能够主动的找到这些数据中的类型吗?然后主动的 按得到的类型把这些个体分类,虽然事前我并不知道哪些类型,由于关于这些数据样本来说,咱们没有给算法一个,正确答案,所以,这便是无监督学习。

  • 无监督学习使咱们能够在几乎不知道或根本不知道成果应该是什么姿态的情况下解决问题。咱们能够从不需求知道变量影响的数据中得到结构。
  • 咱们能够依据数据中变量之间的联系对数据进行聚类,从而得到这种结构。
  • 在无监督学习中,没有基于猜测成果的反应。

比如:
聚类:收集100万个不同的基因,并找到一种办法主动将这些基因分组,这些基因在某种程度上与不同的变量(如寿命、位置、角色等)类似或相关。
非聚类:“鸡尾酒会算法”,答应您在混乱的环境中找到结构。(例如,在鸡尾酒会上从一堆声响中辨别出个人的声响和音乐)。