周志华机器学习笔记(一)

匿名 (未验证) 提交于 2019-12-02 23:36:01

机器学习笔记(一)绪论

什么是机器学习呢?

假设
P:计算机程序在某任务类T上的性能
T:计算机程序希望实现的任务类
E:表示经验,即历史的数据集
若该计算机程序通过利用经验E在任务T上获得了性能P的改善,则该程序对E进行了学习。
即机器学习是致力于研究如何通过计算手段,利用经验来改善系统自身性能的学科,研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即学习算法。

机器学习中的基本术语

数据集:所有 数据的集合。
每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”。
反映事件或对象在某方面的表现或性质的事项,称为“属性”或“特征”。
属性上的取值称为“属性值”。
属性张成的空间称为“属性空间”、“样本空间”、或“输入空间”。
对于每一条记录,如果在坐标轴上表示,都可以用坐标中的一个点表示,空间中的每个点对应一个坐标向量,因此也将一个示例(样本)称为一个特征向量。
一个样本的特征数为“维数”。
在计算机程序学习经验数据生成算法模型的过程中,每一条记录称为一个“训练样本”同时在训练好模型后,用来测试模型效果的新的样本称为“测试样本”。
所有训练样本的集合称为训练集**【特殊】**
所有测试样本的集合称为测试集**【一般】**
机器学习出来的模型适用于新样本的能力为:泛化能力,即从特殊到一般。
若所要预测的是离散值,此类学习任务是“分类”,
若所要预测的是连续值,此类学习任务是“回归”。

训练数据有标记信息的学习任务称为“监督学习”,分类和回归都是监督学习的范畴。
训练数据没有标记信息的学习任务为“无监督学习”,常见的有聚类和关联规则。

<未完待续>

文章来源: https://blog.csdn.net/mlytan/article/details/90729241
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!