机器学习笔记(一)绪论
什么是机器学习呢?
假设
P:计算机程序在某任务类T上的性能
T:计算机程序希望实现的任务类
E:表示经验,即历史的数据集
若该计算机程序通过利用经验E在任务T上获得了性能P的改善,则该程序对E进行了学习。
即机器学习是致力于研究如何通过计算手段,利用经验来改善系统自身性能的学科,研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即学习算法。
机器学习中的基本术语
数据集:所有 数据的集合。
每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”。
反映事件或对象在某方面的表现或性质的事项,称为“属性”或“特征”。
属性上的取值称为“属性值”。
属性张成的空间称为“属性空间”、“样本空间”、或“输入空间”。
对于每一条记录,如果在坐标轴上表示,都可以用坐标中的一个点表示,空间中的每个点对应一个坐标向量,因此也将一个示例(样本)称为一个特征向量。
一个样本的特征数为“维数”。
在计算机程序学习经验数据生成算法模型的过程中,每一条记录称为一个“训练样本”同时在训练好模型后,用来测试模型效果的新的样本称为“测试样本”。
所有训练样本的集合称为训练集**【特殊】**
所有测试样本的集合称为测试集**【一般】**
机器学习出来的模型适用于新样本的能力为:泛化能力,即从特殊到一般。
若所要预测的是离散值,此类学习任务是“分类”,
若所要预测的是连续值,此类学习任务是“回归”。
训练数据有标记信息的学习任务称为“监督学习”,分类和回归都是监督学习的范畴。
训练数据没有标记信息的学习任务为“无监督学习”,常见的有聚类和关联规则。
<未完待续>
文章来源: https://blog.csdn.net/mlytan/article/details/90729241