机器学习 --基础入门介绍 他来啦!!!
行业热词解释 机器学习基本术语 假如我们有一组天气数据,是来自全世界不同国家和地区的每日天气,内容包括最高温度、最低温度、平均湿度、风速之类的相关数据,例如数据的一部分是这样的: 城市 最高温度 最低温度 相对湿度 某时刻风速 A市 36℃ 28℃ 58% 16.7km/h B市 28℃ 17℃ 86% / C市 34℃ 29℃ 39% 20.4km/h 在这组数据中,我们将称A市、B市、C市等市以及其情况的总和称为 数据集 (data set)。表格中的每一行,也就是某城市和它的情况被称为一个 样例 (sample/instance)。表格中的每一列(不包括城市),例如最高温度、最低温度,被称为 特征 (feature/attribute),而每一列中的具体数值,例如36℃ 、28℃,被称为 属性值 (attribute value)。数据中也可能会有 缺失数据 (missing data),例如B市的某时刻风速,我们会将它视作缺失数据。 如果我们想预测城市的天气,例如是晴朗还是阴雨天,这些数据是不够的,除了特征以外,我们还需要每个城市的具体天气情况,也就是通常语境下的结果。在机器学习中,它会被称为 标签 (label),用于标记数据。值得注意的是,数据集中不一定包含标签信息,而这种区别会引起方法上的差别。我们可以给上述示例加上一组标签: 城市 天气 A市 晴朗 B市 阴雨 C市