一、
1.什么是机器学习:
机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。
2.机器学习是一门多淋浴交叉学科,设计概率论、统计学、逼近学、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,已获得新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
3.机器学习的一般过程:
训练数据----------->f(x)----------->未知测试数据(泛华问题)
4.模型--------->策略(损失函数选择,模型选择)--------->算法(在假设空间,确定参数,最优化)
二、
1.发展历程:
推理期、知识期、学科形成、繁荣期。
2.机器学习方法:
有监督学习:从给定的有标注的训练数据集中学习初几个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类与回归。
分类:输出是类别标签
回归:输出是实数
3.无监督学习:没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析,常见任务如聚类等。
4.半监督学习:结合少量的标注训练数据和大量的未标注数据进行数据的分类学习
两个基本假设:
聚类假设:处在相同聚类中的样示例有较大的的可能拥有相同的标记。
流行假设:处于一个很小的局部区域内的样本示例具有相似的性质,因此,其标记也应该相似
5.增强学习:外部环境对输出只给出评价信息而非正确答案,学习及通过强化受奖励的动作来改善自身的性能。
6.多任务学习:把多个相关的任务放在一起学习同时学习。
三、
1.机器学习面临的难题与挑战
数据稀疏性:训练一个模型,需要大量的标注数据,但是数据往往比较稀疏。
高数量和高质量的标注数据需求:获取标定数据需要耗费大量的人力和财力,而且,人会出错,有主观性。
冷启动问题:对于一个新产品,在初期,要面临数据不足的冷启动问题。
泛华能力问题:训练数据不能全面、均衡的代表真实数据。
模型抽象困难:总结归纳实际问题中的数学表示非常困难。
模型评估困难:在很多实际问题中,很难形式化的、定量的评估一个模型结果的好坏。
寻找最优解困难:要解决的实际问题非常复杂,将其形式转化后的目标函数也非常复杂,往往在目前还不存在一个有效的算法能找到目标函数的最友值。
四、
1.数据预处理(数据清洗、数据集成、数据采样)
数据清洗:对各种脏数据进行对应方式的处理,得到标准、干净、连续的数据,提供给数据统计、数据挖掘等使用。
数据采样:
数据集拆分:
2.特征工程(特征选择、特征降维、特征编码、规范化)
五、
1.机器学习方法:
2.分类问题:分类问题是监督学习的一个核心的问题,他从数据中学习一个分类决策函数或分类模型,对新的输入进行输出预测,输出变量有限个离散值。(二分类、多分类)
2.1核心算法:决策树、贝叶斯、SVM、逻辑回归
2.1.1决策树:
决策树剪枝:预剪枝、后期剪枝方法
理想决策树有三种:叶子节点数最少、叶子节点深度最小、叶子节点数最少且叶子节点深度最小
2.1.2贝叶斯分类:
2.1.3
2.1.4
3.回归问题:
4.聚类问题:
5.其他问题:
6.机器学习模型评估:
感谢百度云提供的免费学习机会呀!
来源:CSDN
作者:qq,1909832004
链接:https://blog.csdn.net/weixin_43370373/article/details/104339279