机器学习西瓜书 | 第一章 绪论

╄→尐↘猪︶ㄣ 提交于 2020-08-18 04:53:17

绪论

1.1 引言

机器学习 machine learning 是一种“学习算法”(learning algorithm)

1.2 基本术语

  • 数据集(data set):记录的集合
  • 示例(instance)= 样本(sample)= 特征向量(feature vector):记录,关于一个事件或对象的描述
  • 属性(attribute)= 特征(feature):反映事件在某方面的表现或性质的事项
  • 属性值(attribute space):属性的取值
  • 属性空间(attribute space)= 样本空间(sample space)= 输入空间:属性张成的空间
  • 样本维数(dimensionality):样本属性/特征的个数

  • 学习(learning)= 训练(training)过程:从数据中学得模型的过程,通过执行某个学习算法来完成
  • 训练数据(training data):训练过程中使用的数据
  • 训练样本(training sample)= 训练示例/训练例(training instance):训练数据中的样本
  • 训练集(training set):训练样本组成的集合
  • 假设(hypothesis):学得模型对应的关于数据的潜在的规律
  • 真相/真实(ground-truth):潜在规律本身,学习过程就是在找出或逼近真相
  • 学习器(learner):学习算法在给定数据和参数空间上的实例化
  • 标记(label):示例结果的预测信息
  • 样例(example):拥有标记信息的示例
  • 标记空间(label space)= 输出空间:标记的集合

  • 分类(classification):预测结果为离散值
  • 回归(regression):预测结果为连续值
  • 二分类(binary classification):只涉及两个类别的分类任务
    • 正类(positive class)
    • 反类(negative class)
  • 多分类(multi-class classification):涉及多个类别的分类

  • 测试(testing):使用学得模型进行预测的过程
  • 测试样本(testing sample)= 预测示例(testing instance):被预测的样本

  • 聚类(clustering):将训练集中的样本分为若个组,每组被成为一个簇(cluster)

  • 根据训练数据是否拥有标记信息
    • 监督学习(supervised learning):分类和回归
    • 非监督学习(unsupervised learning):聚类

  • 泛化能力(generalization):学得模型适用于新样本的能力
  • 分布(distribution):样本空间中全体样本服从一个分布
  • 独立同分布(independent and identically distributed,i.i.d )每个样本都是独立地从分布上采样获得的
  • 训练样本越多,得到关于分布的信息越多,就越有可能通过学习获取具有强泛化能力的模型

1.3 假设空间

  • 归纳(induction):从具体事实归结出一般性规律,从特殊到一般的泛化(generalization)过程
  • 演绎(deduction):总基础原理推演出具体状况,从一般到特殊的特化(specialization)过程
  • 从样例中学习,实际就是归纳学习(inductive learning)
  • 布尔概念学习
  • 学习过程就是一个在所有假设组成的假设空间中进行搜索的过程,搜索目标就是找到与训练集匹配(fit)的假设
  • 版本空间(version space):由于可能会有多个假设与训练集结果一致,这些假设构成了一个假设集合,就被称为版本空间

1.4 归纳偏好

由于版本空间中具有许多假设,都能产生与训练集一致的结果,所以问题就在于如何从中选出最合适的假设(模型)

  • 归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
    • 任何一种算法都具有自己的偏好,否则无法产生确定的学习结果
  • 奥卡姆剃刀原则(Occam's razor):若有多个假设与观察一致,则选择最简单的那个,但随之而来的问题是,如何对“简单“进行评估
    • 机器学习中,什么是”更简单的“这个问题一直困扰着研究者
  • 没有免费的午餐定理(No Free Lunch Theorem,NFL):无论学习算法的聪明或笨拙程度,它们的期望性能/总体误差是相同的
    • NFL前提是所有”问题“出现的机会相同、所有问题同等重要
    • 但在实际中,有的假设条件可能很罕见甚至不存在
    • 脱离具体问题谈论算法的好坏是没有意义的

1.5 发展历程

  • 二十世纪五十年代到七十年代初,推理期
  • 二十世纪八十年代,符号主义学习,归纳逻辑程序设计(Inductive Logic Programming,ILP)
  • 二十世纪九十年代中期,统计学习(statistical learning),支持向量机
  • 二十一世纪初,深度学习(deep learning)

1.6 应用现状

参考资料:周志华. 机器学习 : Machine learning[M]. 清华大学出版社, 2016.

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!