Ŀ¼
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。从数据中提取知识,也被称为预测分析 或 统计学习。
监督学习 。
样本或数据点,而每一列(描述这些实体的某一个属性)则被称为特征。
1.scikit-learn
简介:它是一个开源的python库,包含了目前最先进的机器学习算法,也是最有名的python机器学习库。
用户指南:http://scikit-learn.org/stable/user_guide.html
安装scikit-learn:直接装集合了多个数据分析库的python发行版Anaconda,包含了所需的所有机器学习库。
2.Jupyter notebook
3.NumPy
4.SciPy
5.matplotlib
6.pandas
7.mglearn
import sys import pandas as pd import matplotlib import numpy as np import scipy as sp import ipython import sklearn
数据挖掘的大部分时间就花在特征工程上面,是机器学习非常基础而又必备的步骤 。数据预处理、数据清洗、筛选显著特征、摒弃非显著特征等等都非常重要。
交叉验证 选择最好的一个。但如果训练集很小,高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),更容易拟合,但是训练集大的话,低偏差/高方差就比较适合了。
来源:博客园
作者:一只帅气的IT小昂
链接:https://www.cnblogs.com/ITXiaoAng/p/11618546.html