# 机器学习基础
监督学习简介
监督学习的两个任务:分类和回归分析(预测数值型数据)。
分类思路
分类方法思路:这个表至关重要,叫做特征向量表
特征1 | 特征2 | … | 目的变量(类别) | |
---|---|---|---|---|
实例1 | … | … | … | … |
实例2 | … | … | … | … |
… | … | … | … | … |
如上表,分类思路如下:
- 找到输入采样集中的特征(属性)-用你的大脑
- 给各特征一个值,并确定该值的类型(十进制,二值型,枚举型)
- 根据特征值进行分类:
算法训练(如何分类):
用大量的已分类数据(其目标变量的值已给出)组成的训练集进行训练,该训练集由若干个训练样本构成,每个训练样本是一个实例
测试样本(不提供目标变量)
比较目标变量的预测值和实际样本的目标变量值,计算得到算法的精确度。
监督学习的另一个任务是回归分析。
无监督学习简介
无目标变量(无类别信息),其主要任务有:
聚类:将数据集合分成由类似的对象组成的多个类的过程;
密度估计:寻找描述数据统计值的过程
减少数据特征的维度,方便用2/3维图形直观展示数据信息
机器学习算法的主要用途总结
监督学习的用途 | |||
---|---|---|---|
k-近邻算法 | 朴素贝叶斯算法 | 支持向量机 | 决策树 |
线性回归 | 局部加权线性回归 | Ridge回归 | Lasso最小回归系数估计 |
其中深橙色表示分类算法,浅蓝色表示回归分析算法。
无监督学习的用途 | |||
---|---|---|---|
k-均值 | 最大期望算法 | DBSCAN | Parzen窗设计 |
本书不包括PageRank算法(Google的算法),最大期望算法。
机器学习处理问题的步骤:
1 如何选择算法:
2 开发机器学习的步骤:
* 收集数据:爬虫、RSS反馈、传感器数据,API中的信息。 * 准备输入数据。格式为python的list格式。 * 分析输入数据:人工检查输入数据的数值是否异常。 * 训练算法:无监督学习不需要训练算法。 * 测试算法:评估算法,测试算法工作的效果。 * 将机器学习算法转换为应用程序,执行实行任务。
来源:https://www.cnblogs.com/charleechan/p/11434692.html