机器学习实战笔记-1-机器学习基础
# 机器学习基础 监督学习简介 监督学习的两个任务: 分类 和 回归分析 (预测数值型数据)。 分类思路 分类方法思路: 这个表至关重要,叫做特征向量表 特征1 特征2 … 目的变量(类别) 实例1 … … … … 实例2 … … … … … … … … … 如上表,分类思路如下: 找到输入采样集中的特征(属性)-用你的大脑 给各特征一个值,并确定该值的类型(十进制,二值型,枚举型) 根据特征值进行分类: 算法训练(如何分类): 用大量的已分类数据(其目标变量的值已给出)组成的训练集进行训练,该训练集由若干个训练样本构成,每个训练样本是一个实例 测试样本(不提供目标变量) 比较目标变量的预测值和实际样本的目标变量值,计算得到算法的精确度。 监督学习的另一个任务是回归分析。 无监督学习简介 无目标变量(无类别信息),其主要任务有: 聚类:将数据集合分成由类似的对象组成的多个类的过程; 密度估计:寻找描述数据统计值的过程 减少数据特征的维度,方便用2/3维图形直观展示数据信息 机器学习算法的主要用途总结 监督学习的用途 k-近邻算法 朴素贝叶斯算法 支持向量机 决策树 线性回归 局部加权线性回归 Ridge回归 Lasso最小回归系数估计 其中深橙色表示分类算法,浅蓝色表示回归分析算法。 无监督学习的用途 k-均值 最大期望算法 DBSCAN Parzen窗设计