绪论

1.1 引言

机器学习 machine learning 是一种“学习算法”（learning algorithm）

1.2 基本术语

数据集（data set）：记录的集合
示例（instance）= 样本（sample）= 特征向量（feature vector）：记录，关于一个事件或对象的描述
属性（attribute）= 特征（feature）：反映事件在某方面的表现或性质的事项
属性值（attribute space）：属性的取值
属性空间（attribute space）= 样本空间（sample space）= 输入空间：属性张成的空间
样本维数（dimensionality）：样本属性/特征的个数

学习（learning）= 训练（training）过程：从数据中学得模型的过程，通过执行某个学习算法来完成
训练数据（training data）：训练过程中使用的数据
训练样本（training sample）= 训练示例/训练例（training instance）：训练数据中的样本
训练集（training set）：训练样本组成的集合
假设（hypothesis）：学得模型对应的关于数据的潜在的规律
真相/真实（ground-truth）：潜在规律本身，学习过程就是在找出或逼近真相
学习器（learner）：学习算法在给定数据和参数空间上的实例化
标记（label）：示例结果的预测信息
样例（example）：拥有标记信息的示例
标记空间（label space）= 输出空间：标记的集合

分类（classification）：预测结果为离散值
回归（regression）：预测结果为连续值
二分类（binary classification）：只涉及两个类别的分类任务
- 正类（positive class）
- 反类（negative class）
多分类（multi-class classification）：涉及多个类别的分类

测试（testing）：使用学得模型进行预测的过程
测试样本（testing sample）= 预测示例（testing instance）：被预测的样本

聚类（clustering）：将训练集中的样本分为若个组，每组被成为一个簇（cluster）

根据训练数据是否拥有标记信息
- 监督学习（supervised learning）：分类和回归
- 非监督学习（unsupervised learning）：聚类

泛化能力（generalization）：学得模型适用于新样本的能力
分布（distribution）：样本空间中全体样本服从一个分布
独立同分布（independent and identically distributed，i.i.d ）每个样本都是独立地从分布上采样获得的
训练样本越多，得到关于分布的信息越多，就越有可能通过学习获取具有强泛化能力的模型

1.3 假设空间

归纳（induction）：从具体事实归结出一般性规律，从特殊到一般的泛化（generalization）过程
演绎（deduction）：总基础原理推演出具体状况，从一般到特殊的特化（specialization）过程
从样例中学习，实际就是归纳学习（inductive learning）
布尔概念学习
学习过程就是一个在所有假设组成的假设空间中进行搜索的过程，搜索目标就是找到与训练集匹配（fit）的假设
版本空间（version space）：由于可能会有多个假设与训练集结果一致，这些假设构成了一个假设集合，就被称为版本空间

1.4 归纳偏好

由于版本空间中具有许多假设，都能产生与训练集一致的结果，所以问题就在于如何从中选出最合适的假设（模型）

归纳偏好（inductive bias）：机器学习算法在学习过程中对某种类型假设的偏好
- 任何一种算法都具有自己的偏好，否则无法产生确定的学习结果
奥卡姆剃刀原则（Occam's razor）：若有多个假设与观察一致，则选择最简单的那个，但随之而来的问题是，如何对“简单“进行评估
- 机器学习中，什么是”更简单的“这个问题一直困扰着研究者
没有免费的午餐定理（No Free Lunch Theorem，NFL）：无论学习算法的聪明或笨拙程度，它们的期望性能/总体误差是相同的
- NFL前提是所有”问题“出现的机会相同、所有问题同等重要
- 但在实际中，有的假设条件可能很罕见甚至不存在
- 脱离具体问题谈论算法的好坏是没有意义的

1.5 发展历程

二十世纪五十年代到七十年代初，推理期
二十世纪八十年代，符号主义学习,归纳逻辑程序设计（Inductive Logic Programming，ILP）
二十世纪九十年代中期，统计学习（statistical learning），支持向量机
二十一世纪初，深度学习（deep learning）

1.6 应用现状

略

参考资料：周志华. 机器学习 : Machine learning[M]. 清华大学出版社, 2016.

来源：oschina

链接：https://my.oschina.net/jiangroubao/blog/4304362

标签

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!