统计学习基本概念
释义:统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。又称统计机器学习(statistical machine learning)。“如果一个系统能够通过执行某个过程改进它的性能,这就是学习”。统计学习就是计算机系统通过运用数据和统计方法提高系统性能的机器学习。当下提及的机器学习一般是指统计机器学习。 一、统计学习的特点 1. 以计算机和网络为平台,建立在计算机和网络之上; 2. 以数据为研究对象,是数据驱动的学科; 3. 目的是对数据进行预测与分析; 4. 以方法为中心,构建模型并应用模型进行预测与分析; 5. 是概率论、统计学、信息论、计算理论、最优化理论、计算机科学等多个领域的交叉学科。 二、统计学习的对象 统计学习的对象是数据(data)。从数据出发,提取数据特征,抽象数据模型,发现数据中的知识,再回到对数据的分析与预测中去。数据是多样的,包括各种文字、图片、音视频,以及它们的组合。 重点:统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是机器学习的前提。同类数据指具有某种共同性质的数据,具有统计规律性,所以可以使用概率统计方法来处理。如:可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。在统计学习过程中,以变量或变量组表示数据