机器学习概述
一 什么是机器学习?
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。(百度百科)
二 按学习形式分类
监督学习(supervised learning):即在机械学习过程中提供对错指示。一般实在是数据组中包含最终结果(0,1)。通过算法让机器自我减少误差。这一类学习主要应用于分类和预测 (regression & classify)。监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括线性回归和统计分类。
非监督学习(unsupervised learning):和监督学习不同,在给定的数据集中没有对错指示或者特征指示,让算法给出数据集的一定的结构。常见的算法是聚类。
三 举例论证
1 回归问题
正如坐标系中展示的一样,我们事先通过调查研究找到了某地的房价和房子占地面积的数据集。这是假设你有一栋750平米的房子要出售,那么我该定什么样的价位合适呢? 这时我们要通过拟合一条线(或直线或曲线)尽量贴合这些数据点,这样就能找到对应房子的大小的房价。这就是典型的线性回归模型。
2 分类问题
正如图中所示的关于肿瘤大小和是否患恶性的例子,横坐标是肿瘤大小,纵轴是是否为恶性。给出的数据集包含有肿瘤的大小和患病情况,现在给出某个肿瘤的大小,想知道是否为患恶性肿瘤。这就是分类问题,让机器预测出一个离散值的输出。
当然机器学习问题不止这些。我们将在后续的学习笔记上继续了解。
来源:https://www.cnblogs.com/Rophy/p/9159524.html