机器学习综述
机器学习综述 从海量数据中抽取有价值的信息 机器学习的任务是分类,将实例数据划分到合适的分类中 一般是使用训练集样本作为算法的输入,训练完成之后输入测试样本 监督学习 已知类别的样本,知道预测什么,从标记的训练数据集推断一个功能的机器学习任务 常见的监督学习包括分类和回归 knn算法 朴素贝叶斯算法 支持向量机 决策树 线性回归 局部加权线性回归 Ridge回归 lasso最小回归系数估计 无监督学习 数据没有类别信息,也不会给定目标值。将数据集分成由类似的对象组成的多个类的过程叫做聚类,将寻找描述数据统计值的过程称之为密度估计 k-means DBSCAN 最大期望算法 如何选择合适的算法 若是预测目标变量的值,可以选择监督算法 若需要将数据化为离散的组,则需要进行聚类 需要考虑数据是离散变量还是连续变量,特征值中是否存在缺失值,是何种原因造成的缺失值,数据中是否存在异常值,某个特征发生的频率如何 分析步骤 收集数据 处理数据 分析数据,可以通过图形的展示 训练算法(针对监督学习的,无监督学习不需要训练算法 评估算法 应用 需要掌握的python的几个库 numpy pandas scikit-learn 待补充 来源: https://www.cnblogs.com/gaowenxingxing/p/12290923.html