Part I/ Chapter 5 机器学习基础1
一、学习算法 “ 学习 ”:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。 1、 任务T :通常定义为机器学习系统应该如何处理样本。 →样本(Example):我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。 常见的机器学习任务: ①分类:指定某些输入属于k类中的哪一类 ②输入缺失分类 ③回归:对给定输入预测数值 ④转录:观测一些相对非结构化表示的数据,并转录信息为离散的文本形式 ⑤机器翻译:输入是一种语言的符号序列,程序将其转化为另一种语言的符号序列 ⑥结构化输出:输出是向量或者其他包含多个值的数据结构,并且构成输出的这些不同元素间具有重要关系 ⑦异常检测:在一组事件或对象中筛选,并标记不正常或非典型的个体 ⑧合成和采样:生成一些和训练数据相似的新样本 ⑨缺失值填补 ⑩去噪 ⑪密度估计或概率质量函数估计 2、 性能度量P :用于评估机器学习算法的能力,通常是特定于系统执行的任务T而言的。 3、 经验E 根据学习过程中的不同经验,可以将机器学习算法大致分为无监督(unsupervised)算法和监督(supervised)算法