机器学习笔记(周志华西瓜书) 绪论

徘徊边缘 提交于 2020-01-17 06:06:57
  • 基本术语

数据集:由数据组成的集合

示例/样本:对于每条数据记录,关于一个事件或对象的描述

属性/特征:反应事件或者对象在某方面的表现或性质的事项,例如“色泽”“根蒂”“敲声”

属性值:属性上的取值,例如“青绿”“乌黑”

属性空间/样本空间/输入空间:属性张成的空间,例如把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置

特征向量:属性空间中每个点所对应的坐标向量

 

一般地,令

表示包含m个示例的数据集,每个实例由d个属性描述,则每个实例

是d维样本空间

中的一个向量,

,其中

在第j个属性上的取值,d称为样本

的“维数”

 

学习/训练:从数据中学得模型的过程

训练数据:训练过程中使用的数据,其中每个样本称为一个“训练样本”

训练集:训练样本组成的集合

假设:关于数据的某种潜在的规律的学得模型

真相/真实:潜在规律本身

有时将模型称为“学习器”,可看做学习算法在给定数据和参数空间上的实例化

 

标记:关于实例结果的信息

样例:拥有了标记信息的实例

一般用

表示第i个样例
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!