统计学

机器学习图解

孤街醉人 提交于 2020-04-06 07:32:52
机器学习图解 机器学习(Machine Learning)是计算机科学的一个方向。利用统计学的技巧,机器学习算法(Machine Learning Algorithms)能够自动学习并识别数据内的规律。凭着这些规律,算法便能作出高度准确的预测。 每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的。 算法公式挺费神,机器学习太伤人。任何一个刚入门机器学习的人都会被复杂的公式和晦涩难懂的术语吓到。但其实,如果有通俗易懂的图解,理解机器学习的原理就会非常容易。本文介绍根据这些图理解看机器学习算法。 机器学习最大的分支的监督学习和无监督学习,简单说数据已经打好标签的是监督学习,而数据没有标签的是无监督学习。从大的分类上看, 降维 和 聚类 被划在无监督学习, 回归 和 分类 属于监督学习。机器学习常用方法有10种 1) 回归 2) 分类 3) 聚类 4) 降维 5) 集成方法 6) 神经网络与深度学习 7) 迁移学习 8) 强化学习 9) 自然语言处理 10) 词嵌入 机器学习这个主题已经很普遍了,每个人都在谈论它,但很少有人能够透彻地了解它。当前网络上的一些机器学习文章晦涩难懂,理论性太强,或者通篇云里雾里地介绍人工智能、数据科学的魔力以及未来的工作等。 所以呢,本文作者

机器学习实战笔记-1基础

独自空忆成欢 提交于 2020-03-28 14:57:33
机器学习基础 什么是机器学习 机器学习能让我们从数据集中受到启示。换句话说。我们会利用计算机来彰显数据背后的真实含义。简单的说机器学习就是把无序数据转换成实用的信息。 关键术语 特征(属性):对一类物体我们关心的性质,比方鸟的体重、翼展、脚蹼、后背颜色等 训练集:已经有分类的大量数据。是用来训练机器学习算法的数据样本集合。 训练样本:实例数据 目标变量:机器学习的预測结果 训练数据:用来训练算法 測试数据:用来评估算法 监督学习: 无监督学习: 机器学习主要任务 机器学习的主要任务时分类和回归。 分类和回归都属于监督学习。分类和回归的差别是回归用于预測数值型数据。 在无监督学习中: 聚类:将数据集合分层有类似的对象组成的多个类的过程 密度分析:寻找描写叙述数据统计值的过程 假设选择合适算法: 选择的根据: 1使用算法的目的,2分析或者收集的数据是什么 选择的过程: 1依据目的首先划分是监督学习,还是无监督学习。假设要预測目标变量的值,则能够选择监督学习算法,否则选择无监督学习算法 2假设是监督学习:进一步确定目标变量的类型,假设是离散型。选择分类算法。否则选择回归算法 3假设是非监督学习:进一步分析是否只须要将数据划分为离散的组。假设是则选择聚类算法。否则选择密度预计算法。 开发的步骤 1 收集数据:爬虫、传感器等 2 准备输入数据:格式处理等 3 分析输入数据

机器学习算法

谁说我不能喝 提交于 2020-03-28 07:40:58
转载自: http://www.cnblogs.com/tornadomeet   朴素贝叶斯:   有以下几个地方需要注意:   1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。   2. 计算公式如下:      其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总和。   3. 如果 中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace光滑, 分母加k的原因是使之满足全概率公式)。    朴素贝叶斯的优点:   对小规模的数据表现很好,适合多分类任务,适合增量式训练。    缺点 :   对输入数据的表达形式很敏感。   决策树:   决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它

5.机器学习之朴素贝叶斯详解

强颜欢笑 提交于 2020-03-18 01:11:41
本篇博客主要详细介绍朴素贝叶斯模型。首先贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类器。而朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。并且,朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提(这个假设在实际应用中往往是不成立的),就会导致算法精度在某种程度上受影响。 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,是经典的机器学习算法之一。最为广泛的两种分类模型是决策树(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 历史背景解读: 18世纪英国数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:

《统计学》学习笔记之数据的图表展示

谁说胖子不能爱 提交于 2020-03-17 10:55:19
鄙人学习笔记 文章目录 数据的预处理 品质数据的整理与展示 分类数据的整理与图示 顺序数据的整理与图示 数值型数据的整理与展示 数据的预处理 数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。 数据审核 数据审核 就是检查数据中是否有错误。对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。 数据筛选 数据筛选是根据需要找出符合特定条件的某类数据。 数据排序 数据排序是指按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。 品质数据的整理与展示 分类数据的整理与图示 频数 频数 是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为 频数分布 。 列联表 由两个或两个以上变量交叉分类的频数分布表也称为列联表。二维的列联表(两个变量交叉分类)也称为交叉表。 比例和比率 比例也称构成比,它是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。 比率样本(或总体)中不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1. 条形图 条形图是用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置,纵置时也称为柱形图。 条形图: 帕累托图

机器学习岗位面试总结:简历应该关注的5个重点

£可爱£侵袭症+ 提交于 2020-03-16 15:06:43
机器学习简历的一些小技巧 如今的公司很难找到优秀的机器学习人才。当然,任何特定技能的要求都取决于机器学习项目的用途和要求,但是您的机器学习履历中必须具备的某些技能在各种项目要求中是一致的。 通常,公司希望面试者具备丰富的机器学习技能,理论和编码能力,以便在需要时能够跨部门参与机器学习项目。 该领域的专家不仅需要具有扎实的机器学习算法水平,了解什么时候该应用什么算法,还需要掌握如何集成和接口。所需的核心技能是专门的,要求具有良好的数学理解,分析思维和解决问题的能力。尽管每个项目文件要求的特定技能各不相同,但对于所有角色而言,核心的机器学习技能都是不变的。 简历上必须出现的技能 概率与统计 概率论是大多数机器学习算法的主要内容。熟悉概率可以使您能够处理数据的不确定性。如果您从事与模型构建和评估有关的机器学习工作,掌握诸如Python,高斯混合模型和隐马尔可夫模型等概率理论,是非常必要的。 与概率论密切相关的是数据统计。 它提供了构建和验证模型所需的测度,分布和分析方法。 它还提供了用于创建模型和检验假设的工具和技术。 它们共同构成了机器学习模型的框架。这是制作机器学习简历时要考虑的第一件事。 计算机科学和数据结构 机器学习使用大量数据集,因此必须掌握计算机科学和底层体系结构的基础知识,还必须具备大数据分析和复杂数据结构方面的专业知识。 因此

第一次作业

[亡魂溺海] 提交于 2020-03-16 01:45:47
一、spss简介 SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,精通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按" 粘贴 "按钮就可以自动生成标准的SPSS程序。极大的方便了中、高级用户。 SPSS for Windows是一个组合式软件包,它集数据录入、整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。 SPSS统计分析 过程包括描述性统计、均值比较、一般线性模型、相关分析、 回归分析 、对数线性模型、 聚类分析 、数据简化、 生存分析 、

机器学习周志华——机器学习重要会议及期刊

╄→尐↘猪︶ㄣ 提交于 2020-03-15 19:10:40
机器学习重要国际会议: 国际机器学习会议(ICML) 国际神经信息处理系统会议(NIPS) 国际学习理论会议(COLT) 机器学习重要区域会议: 欧洲机器学习会议(ECML) 亚洲机器学习会议(ACML) 机器学习重要国际期刊: Journal of Machine Learning Research Machine Learning 人工智能领域重要会议: IJCAI AAAI 人工智能重要期刊: Artificial Intelligence Journal of Artificial Intelligence Research 数据挖掘领域重要会议: KDD、ICDM 数据挖掘重要期刊: ACM Transactions on Knowledge Discovery from Data Data Mining and Knowledge Discovery 计算机视觉与模式识别重要会议: CVPR 计算机视觉与模式识别重要期刊: Neural Computation IEEE Transactions on Neural Networks and Learning Systems. 统计学重要期刊: Annals of Statistics 国内: 国内有两年一次的中国机器学习大会(CCML) 每年举行的机器学习及其应用研讨会(MLA) 很多学术刊物也经常刊登机器学习相关论文

关于Django创建模型时,django.db.utils.OperationalError错误

风格不统一 提交于 2020-03-12 23:38:23
在django保存的模型对象的时候,出现如下错误: django.db.utils.OperationalError: (1366, "Incorrect string value: '\\xE8\\xBF\\x90\\xE8\\x90\\xA5...' for column 'name' at row 1") 有可能是mysql的数据库字符集问题,执行如下代码: show full columns from <你的对象表格> 得到如下输出: 在my.cnf文件里面配置如下: character-set-server=utf8 collation-server=utf8_general_ci 重启mysql,删除数据库重新执行,如下: python manage.py makemigration python manage.py migrate 最后推荐本人新书 内容简介:近年来机器学习是一个热门的技术方向,但机器学习本身并不是一门新兴学科,而是多门成熟学科(微积分、统计学与概率论、线性代数等)的集合。其知识体系结构庞大而复杂,为了使读者朋友能够把握机器学习的清晰的脉络,本书尽可能从整体上对机器学习的知识架构进行整理,并以Sklearn和Keras等机器学习框架对涉及的相关理论概念进行代码实现,使理论与实践相结合。 本书分为4个部分:第1章至第3章主要介绍机器学习的概念

kubernetes mysql pod sql文件导入问题

一个人想着一个人 提交于 2020-03-12 22:40:42
当你需要在pod里面执行mysql 导入sql文件时,经常会发现sql文件无法找到,如下命令: kubectl exec -i mysql -n db -- mysql -uroot -lalalala spring < your_scripts.sql 其主要原因在于 kubectl是读取的系统的路径,而不是pod里面的路径,其实可以直接加上你当前系统的路径,就可以执行了 最后推荐本人新书 内容简介:近年来机器学习是一个热门的技术方向,但机器学习本身并不是一门新兴学科,而是多门成熟学科(微积分、统计学与概率论、线性代数等)的集合。其知识体系结构庞大而复杂,为了使读者朋友能够把握机器学习的清晰的脉络,本书尽可能从整体上对机器学习的知识架构进行整理,并以Sklearn和Keras等机器学习框架对涉及的相关理论概念进行代码实现,使理论与实践相结合。 本书分为4个部分:第1章至第3章主要介绍机器学习的概念、开发环境的搭建及模型开发的基本流程等;第4章至第7章涵盖回归、分类、聚类、降维的实现原理,以及机器学习框架Sklearn的具体实现与应用;第8章至第12章主要阐述深度学习,如卷积神经网络、生成性对抗网络、循环神经网络的实现原理,以及深度学习框架Keras的具体实现与应用;第13章简单介绍机器学习岗位的入职技巧。 本书可作为机器学习入门者、对机器学习感兴趣的群体和相关岗位求职者的参考用书