Machine Learning-A Probabilistic Perspective笔记
MLAPP是统计机器学习领域内一本经典著作。就兴起先后顺序来说,统计机器学习较如今大火的深度学习神经网络更久远,不同于神经网络作为一个端到端的系统,将输入到输出过程看做一个黑匣子,统计机器学习更多地从概率论和数理统计角度诠释数据,可解释性更强。
关于这本书,有类似的博客:
上述博客的博主写得很详尽,其初衷和经历亦与我类似,于是我决定在其上进行自己的补充。
MLAPP——第一章 Introduction
We are drowning in information and starving for knowledge.——John Naisbitt
第一章概述机器学习的一些基本概念。要点如下:
- 监督学习与无监督学习
- 分类与回归
- 机器学习应用举例
- 参数模型和非参数模型
在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。
从上述的区别中可以看出,问题中有没有参数,并不是参数模型和非参数模型的区别。其区别主要在于总体的分布形式是否已知。而为何强调“参数”与“非参数”,主要原因在于参数模型的分布可以有参数直接确定。
文中举例,K近邻分类器(KNN)是非参数模型。
KNN中当K=1是产生泰森多边形,又叫Voronoi多边形,它是由两相邻点的垂直平分线组成的连续多边形;一个Voronoi多边形内的任意一点到其中心控制点的距离小于其到其他中心控制点的距离。
5. 维度诅咒
高维数据不易处理,且在统计分布上会出现一些违背常规认知的问题。例如,多维单位立方体(单位立方体的推广)中0.9长度为棱的小立方体在维度逐渐升高的情况下,其对应的体积趋近于0,即数据在高维情况下更趋向于分布在“壳”上。
6. 交叉验证(cross validation)
将数据分为K份,第k次训练用除了第k份的数据作为训练集,适用于数据集较小的情况。
来源:CSDN
作者:qq_34134404
链接:https://blog.csdn.net/qq_34134404/article/details/103781513