机器学习笔记-----01绪论

六眼飞鱼酱① 提交于 2020-03-13 00:41:42

1.1 引言

生活中,我们经常会运用经验做出一些预判,比如小时候看见蚂蚁搬家就会推测即将下雨,晚上星空璀璨的话第二天一般都会阳光普照......这些都是我们人类利用自己的经验来完成的,那么这份工作计算机可以做吗?

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,且在计算机系统中,“经验”通常是以“数据”的形式存在的。

机器学习的主要内容,是关于在计算机上从数据中产生“模型(model)”的算法,即学习算法(learning algorithm)。

PS:如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究“关于算法”的学问。

学习算法的作用:1.基于提供的经验数据产生模型

2.面对新情况时,模型可提供相应的判断。

模型:泛指从数据中学得的结果。

学习器:学习算法在给定数据和参数空间上的实例化。

1997年,Mitchell给出了一个更形象化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

1.2 基本术语

数据集(data set):数据记录的集合

示例(instance)/样本(sample):数据集中的每条记录,即关于一个事件或对象的描述(有时整个数据集也称为一个“样本”)

特征向量(feature vector):将属性作为坐标轴,通过属性值可以在N维空间中找到自己的坐标位置,由于空间中的每个点对应了一个坐标向量,故也将一个示例称为一个特征向量。

属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项

属性值(attribute value):属性上的取值

属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间

 

学习(learning)/训练(training):从数据中心学得模型的过程

训练数据(training data):训练过程中使用的数据

训练样本(training sample):训练过程中的每个样本

训练集(training set):训练样本组成的集合

假设(hypothesis):学得模型对应了关于数据的某种潜在的规律

真相/真实(ground-truth):潜在规律自身

 

 

分类(classification):预测的是离散值

回归(regression):预测的是连续值

“二分类”(binary classification):只涉及两个类别的任务(正类(positive class)+反类(negative class))

“多分类”(multi-class classification):涉及多个类别的任务

 

测试(testing):学得模型后,使用其进行预测的过程

测试样本/测试示例/测试例

根据训练数据是否拥有标记信息,学习任务大致可以划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。

泛化(generalization)能力:学得模型适用于新样本的能力

 

1.3 假设空间

归纳(induction)与演绎(deduction)是科学推理的两大基本手段

归纳是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;演绎是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。

 

 学习过程看作一个在所有假设组成的空间中进行搜素的过程,搜索目标是找到与训练集“匹配”的假设。

假设空间:机器学习中可能的函数构成的空间称为“假设空间”

版本空间:一个与训练集一致的“假设集合”

1.4 归纳偏好

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

任何一个有效的机器学习算法必有其归纳偏好

“奥克姆剃刀”原则:“若有多个假设和观察一致,则选最简单的那个”

注意:奥克姆剃刀并非唯一可行的原则;奥克姆剃刀本身存在不同的诠释

“没有免费的午餐”定理(NFL定理):总误差与学习算法无关

注意:脱离具体问题,空泛的谈论“什么学习算法更好”,毫无意义。

 

*难点分析

假设空间的规模问题

1. 某一属性值无论取什么都合适,我们用通配符“*”来表示。

2. 世界上没有,我们用“”来表示。

书中例子为西瓜,为判断西瓜的好坏,其属性有三种,即:色泽、根蒂、敲声。

这三种属性分别有3、3、3种可能取值,但假设空间的规模却是4×4×4+1=65。

这是因为,在假设空间中,属性的“无论取什么属性值都合适”也是一种属性值,而不是作为单一属性的3种可能取值的集合存在。

因为假设空间是机器学习中可能的函数构成的空间,“无论取什么属性值都合适”意味着这个函数与这一属性无关。

 

例如,如果西瓜的三个属性取值都是“无论取什么属性值都合适”,那么无论什么瓜,都是好瓜。而不是3×3×3=27个种类的瓜的集合,并不需要依次判断,需要的判断仅仅是——它是瓜。

 

所以其假设空间为:

{青绿,乌黑,浅白,*}×{蜷缩,稍蜷,硬挺,*}×{浊响,清脆,沉闷,*}+1(没有“好瓜”的定义)=65

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!