机器学习周志华

机器学习图解

孤街醉人 提交于 2020-04-06 07:32:52
机器学习图解 机器学习(Machine Learning)是计算机科学的一个方向。利用统计学的技巧,机器学习算法(Machine Learning Algorithms)能够自动学习并识别数据内的规律。凭着这些规律,算法便能作出高度准确的预测。 每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的。 算法公式挺费神,机器学习太伤人。任何一个刚入门机器学习的人都会被复杂的公式和晦涩难懂的术语吓到。但其实,如果有通俗易懂的图解,理解机器学习的原理就会非常容易。本文介绍根据这些图理解看机器学习算法。 机器学习最大的分支的监督学习和无监督学习,简单说数据已经打好标签的是监督学习,而数据没有标签的是无监督学习。从大的分类上看, 降维 和 聚类 被划在无监督学习, 回归 和 分类 属于监督学习。机器学习常用方法有10种 1) 回归 2) 分类 3) 聚类 4) 降维 5) 集成方法 6) 神经网络与深度学习 7) 迁移学习 8) 强化学习 9) 自然语言处理 10) 词嵌入 机器学习这个主题已经很普遍了,每个人都在谈论它,但很少有人能够透彻地了解它。当前网络上的一些机器学习文章晦涩难懂,理论性太强,或者通篇云里雾里地介绍人工智能、数据科学的魔力以及未来的工作等。 所以呢,本文作者

机器学习周志华——模型评估与选择

北城以北 提交于 2020-03-24 13:54:40
(1)经验误差与过拟合 错误率error rate:分类错误的样本数占样本总数的比例a。 精度accuracy:分类正确的样本数占样本总数的比例1-a。 误差error:|实际预测输出-样本真实输出| 训练误差training error或经验误差empirical error:学习器在训练集上的误差 泛化误差generalization error:在新样本上的误差 学习的理想情况:从训练样本中尽可能学出适用于所有潜在样本的“普通规律” 过拟合(overfitting):学习器把训练样本学的“太好”,很可能导致已将训练样本自身一些特点当作了潜在样本的共性,如些导致泛化性能下降。由于学习能力太强导致。 欠拟合underfitting:对训练样本的一般性质未学好。通常由于学习能力低下导致。 欠拟合比较容易解决,过拟合则不太好解决,过拟合是机器学习面临的关键障碍,但过拟合是无法彻底避免的。 现实学习任务中,选择学习算法及确定参数配置即是“模型选择”(model selection)问题。 (2)模型评估 由于无法获取所有样本上的泛化误差,因此一般只能以测试集上的“测试误差”(testing error)作为泛化误差的近似。 测试集应尽可能与训练集互斥,即测试样本未在训练中使用过。 针对m个样本的数据集D={( x 1 , y 1 ),( x 2 , y 2 ),…,( x m , y

机器学习-周志华-第一章

我怕爱的太早我们不能终老 提交于 2020-02-23 01:38:28
绪论 1.1 引言 什么是机器学习? 它是一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的一门学科。所研究的主要内容是计算机如何通过数据产生模型,即学习算法。有了学习算法后,当我们给它提供经验数据时就能基于这些数据产生模型。在面对新数据时学习算法会给我们相应的判断。经验通常以数据的形式存在 名词理解 模型:一类问题的解题步骤 算法:一个问题的解题步骤 学习算法:由数据产生的一类问题的解题步骤。通过学习算法从数据中获得模型 ps:阿尔法狗零自学三天以100:0战胜阿尔法狗。这里阿尔法狗零利用人类经验提升自身能力,这就是机器学习 1.2 基本术语 数据集 示例 属性、特征 属性空间、样本空间、输入空间:数据的维度空间 特征向量: 学习、训练:从数据中学得模型的过程 训练数据:训练过程中使用的数据 训练样本: 训练集:多个训练样本的集合 假设:学到的模型 真相:数据某种潜在的规律 标记:示例的结果信息 样例:有标记信息的示例 标记空间、输出空间:(x,y),y:所有标记的集合 分类:预测值是离散的学习任务 二分类:只涉及两个类别的分类 多分类: 回归:预测值是连续的学习任务 聚类:将训练集中的示例分组 监督学习:训练数据中拥有标记信息的学习任务 。如分类和回归 无监督学习:训练数据中不包含标记信息的雪人任务;如聚类 泛化能力:学得模型适用于新样本的能力 1.3 假设空间

【西瓜书】周志华《机器学习》学习笔记与习题探讨(一)

主宰稳场 提交于 2020-02-23 01:34:21
【第1章 绪论】 1.1 引言 学习算法: 机器学习所研究的主要内容,是关于在计算机上从数据中产生“ 模型 ”的算法,即“ 学习算法 ”。 学习算法的作用: 1.基于提供的经验数据产生 模型 ; 2.面对新情况时, 模型 可提供相应的判断。 模型: 泛指从数据中学得的结果。 学习器: 学习算法在给定数据和参数空间上的实例化。 1.2 基本术语 要进行机器学习,先要有数据。 数据集: 一组记录的集合。 示例/样本/特征向量: 每条记录(关于一个事件或对象的描述)或空间中的每一个点(对应一个坐标向量)。 属性/特征: 反应事件或对象在某方面的表现或性质的事项。 属性值: 属性上的取值。 属性空间/样本空间/输入空间: 属性张成的空间。 维数: 属性的个数。 模型需要从数据中学得。 学习/训练: 从数据中学得模型的过程。 训练数据: 训练过程中使用的数据。 训练样本: 每个样本。 训练集: 训练样本组成的集合。 假设: 学习模型对应了关于数据的某种潜在的规律。 真相/真实: 这种潜在规律自身。 学习过程就是为了找出或逼近真相。 获得训练样本的结果信息,才能建立“预测”的模型。 标记: 关于示例结果的信息。 样例: 拥有了标记信息的示例。 标记空间: 所有标记的集合。 测试: 学得模型后,使用其进行预测的过程。 测试样本: 被预测的样本。 聚类: 将训练集中的训练样本分成若干组。 簇:

机器学习知识点QA

[亡魂溺海] 提交于 2020-01-28 04:12:05
浮沙之上,勿筑高台 自己整理的笔记文章内容都是自己从自学机器学习以来涉及到的一些知识点、经历等等,包括研一上学期默默的学习机器学习理论知识,从李航老师的 《统计学习方法》 和周志华老师的 《机器学习》 西瓜书一步步地入门机器学习领域。这两本书从研一到确认工作陪伴了我两年,从入门学习到面试准备时都给予了我很大的帮助,以后这两本书也要经常的回头看看。 理论学习后参加的数据挖掘类竞赛以及幸运的实习经历,不仅让我认识了优秀的挚友和一群优秀的同事,也让我迈入了推荐算法和NLP的领域。在这里面 基础的算法理论知识 , 熟悉每一个基础算子 , 算法的实现 , 跟进学习前沿的算法 , 熟练的工程能力 , 深刻的业务理解能力 等等…我认为都是非常非常重要的。 我想抽出时间听着歌静下心来整理整理学习过程中的知识点、实践经历等等,同时也要以这种方式去更多的学习新的知识,保持学习。这里面参考了很多很多优秀前辈们的传授、总结、踩坑…感谢各位老师! 写知识点总结,一方面是对自己入门机器学习以来的一个回顾整理以免生疏,一方面是通过写笔记来督促自己保持学习。 知识点QA整理主要参考了(也是自己看过学习的书籍、视频、博客等),包括: 《统计学习方法》(李航老师) 《机器学习》(西瓜书) 《百面机器学习》(HuLu) 《机器学习实战》 《推荐系统实战》 《深度学习》(花书) 等…

周志华《机器学习》(西瓜书) —— 学习笔记:第1章 绪论

混江龙づ霸主 提交于 2020-01-20 16:41:32
文章目录 1.1 引言 1.2 基本术语 1.3 假设空间 1.4 归纳偏好 1.5 发展历程 1.6 应用现状 1.1 引言   机器学习的定义:假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序通过利用经验 E 在 T 中任务上获得了性能改善,则我们就说关于 T 和 P ,该程序对 E 进行了学习。   机器学习是研究 关于算法 的学问。 1.2 基本术语 数据集(data set) :数据、记录的集合 示例(instance)/ 样本(sample) :关于一个事件或对象的描述(每条数据、记录) 属性(attribute)/ 特征(feature) :反映事件在某方面的表现或性质的事项 属性值(attribute value) :属性的取值 属性空间(attribute space)/ 样本空间(sample space)/ 输入空间 :属性张成的空间 特征向量(feature vector) :每个示例都可以在属性空间中找到自己所对应的坐标向量,所以我们也把一个示例称为一个特征向量   一般地,令 D = { x 1 , x 2 , … , x m } D=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \ldots, \boldsymbol{x}_{m}\right\} D = { x 1 ​ , x 2 ​ ,

AI全面入门经典书籍-pytho入门+数学+机器学习+深度学习(tensorflow)一次性打包

╄→гoц情女王★ 提交于 2020-01-15 01:13:55
百度网盘: https://pan.baidu.com/s/1SShwxxBIHB_rynF_jUjApA 一、内容清单: 1..python入门书籍: python基础教程.pdf python语言及其应用.pdf python语言入门.pdf 像计算机科学家一样思考python第2版.pdf 备注:自己找一本精读,其他辅助阅读,会有不一样的效果。 2.数学: 同济高等数学 第六版 上册.pdf //上册内容基本要求都必须了解,了解的意思是虽然不会回推导,但是要能理解 同济高等数学 第六版 下册.pdf //以最小二乘法为界(包括最小二乘),之前的内容个人觉得必须要理解,特别是三维 //空间向量部分,是理解线性代数的基础,因为线性代数是将向量推向高维空间后的结果。 同济高等数学 第六版 习题全解.pdf //如果你考研的话,这个很重要,否者可以暂时略过 线性代数应该这样学.pdf //掌握基本内容,至于那些是基本内容,请度娘后自己把握 线性代数(英文).pdf 概率论 //掌握基本内容,自己把握 数学之美.pdf //兴趣型读物 统计学习方法.pdf //兴趣型读物 备注:以上数学书籍不用所有章节都看,但是与AI相关的基础部分必看。 3.机器学习+深度学习(主要基于tensorflow框架) TensorFlow实战 黄文坚(完整).pdf TensorFlow机器学习实战指南

机器学习(1)

感情迁移 提交于 2020-01-10 08:56:45
机器学习是人工智能中不可或缺的一部分,这篇随笔将记录这段时间学习机器学习的几点感悟,希望对以后的学习有所帮助。参考了以下几本书: 《机器学习》-周志华 《机器学习实践》-Peter Harrington 在这里我也发现了一篇很不错的文章 《从机器学习谈起》 ,生动有趣,可以加深大家对机器学习的认识。 第一章 机器学习基础 1.什么是机器学习? 机器学习就是把无序的数据转换成有用的信息。 机器学习方法是计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。 一般来说,数据越多,最后机器学习生成的模型预测的效果越好。 机器学习的过程与人类对历史经验归纳的过程做个比对,如下图: 2.关键术语 特征: 下图测量的四个属性为特征,也可以成为属性。它们通常是训练样本集的列,他们是独立测量得到的结果,逗哥特征联系在一起共同组成一个训练样本。 分类: 机器学习的主要任务。这部分工作可以看成: 知识表示。 算法训练: 学习如何分类。通常为算法输入大量已分类数据作为算法的 训练集 。 通常建立两套独立的样本集: 训练数据和测试数据。 3.机器学习的主要任务 (1)监督学习(知道预测什么): 分类(将数据分到合适的分类) 回归 (用于测试数值型数据)eg:数据拟合曲线 (2)无监督学习(没有类别信息,也不会给定目标值): 聚类 密度估计(寻找描述数据统计值的过程) 4

我的书单(2019)

隐身守侯 提交于 2019-12-30 05:12:22
分类 书名 概要 读后感 推荐指数 效率 极简思考 提出 结构化思维 概念,帮助提高方案通过率。 对于设计方案具有一定的参考价值,可以借鉴。 *** 深度思考 微服务 微服务设计 从微服务的各个角度阐述如何设计微服务。 微服务理论教材,入手微服务入门。 *** 生产微服务 从生产的角度讲述如何构建一个标准化的微服务体系。 讲述了微服务的一套标准化,企业应用微服务借鉴。 ***** 机器学习 工程数学线性代数 线性代数基础教材 机器学习基础的一部分。 *** 概率论与数理统计 概率、统计相关知识的基础教材 机器学习基础的一部分,与机器学习贴合较为紧密。 **** 机器学习-周志华 机器学习理论教材,介绍了各种模型和算法。 比较好的机器学习入门教材。 ***** 统计学习方法-李航 机器学习理论教材,介绍了各种模型和算法。 与【机器学习-周志华】讲述内容差不多,没有周讲的全面。 *** Python机器学习 机器学习实战 Python自然语言处理实战:核心技术与算法 知识图谱完整项目实战 知识图谱实战案例完全剖析 知识图谱导论 《知识图谱》 神经网络与深度学习 业务  全面实施预算绩效管理专业基础 来源: https://www.cnblogs.com/havery/p/10894587.html

入门人工智能

情到浓时终转凉″ 提交于 2019-12-27 20:53:14
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 一、引言 1、什么是人工智能? 如果你是一个新技术的爱好者或者从事工科学习的学生,你一定听说过人工智能(AI),对于什么是人工智能,百度是这样子给出的定义: 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。 人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。 2017年12月,人工智能入选“2017年度中国媒体十大流行语”。 ---