统计学

1.1.1:机器学习课程介绍

拥有回忆 提交于 2020-02-02 18:23:47
机器学习介绍 机器学习是实现人工智能的手段,其主要研究内容是如何利用数据或经验进行学习,改善具体算法的性能。 多领域交叉,涉及概率论、统计学、算法复杂度等多门学科。 分类:监督学习、无监督学习、强化学习(增强学习)、半监督学习、深度学习。 scikit-learn库介绍(sklearn) 依赖NumPy、SciPy、matplotlib库 ​ 开源、可复用 常用功能有6种,本专题学习以下四种: ​ 注意:本课程侧重学习sk-learn库的调用方法,对于机器学习原理,本课程不予侧重。 相关书籍及课程推荐 西瓜书-适合本科高年级和研究生低年级 贝叶斯学派经典-广度、深度、可读性 吴恩达在线课程-机器学习原理,深入浅出 斯坦福-深度学习(及其在计算机视觉领域应用) 谷歌alpha go团队-强化学习原理及其技术应用 ​ ​ ​ ​ ​ 来源: https://www.cnblogs.com/nishida-rin/p/12253005.html

R语言数据科学程序包:Tidyverse介绍

℡╲_俬逩灬. 提交于 2020-01-30 10:10:53
R语言数据科学程序包:Tidyverse介绍 1. R语言简介 2. 数据科学简介 3. Tidyverse简介 1. R语言简介 R语言是用于统计计算和绘图的免费软件。它可以在Windows, Unix以及MacOS等系统下运行。用户可以从网上免费下载R语言。 R语言的起源可以追溯到80年代,那时候的AT&T贝尔实验室(也就是现在的朗讯科技)开发了S语言进行数据挖掘、统计分析和绘图。S语言后来演变成为了商业软件S-Plus。后来有一些志愿者将S-Plus改进成为免费的R语言。R语言的统计功能强大,包括线性和非线性模型,经典统计检验、时间序列分析、聚类分析等等。 R语言不但免费,而且开发源代码,是一种自由软件。另外,R语言的编程简单易学。你可以自己写函数,将最新的统计方法应用到R语言中去。R语言的函数和数据集都保存在程序包里面。当我们需要访问这些函数和数据时,需要下载相关的程序包。 2. 数据科学简介 数据科学是一门利用科学的模型、算法和系统,从有结构(Structured)和无结构(Unstructured)的数据中提取信息的学科。数据科学同数据挖掘和大数据密切相关,并将统计学、数据分析、机器学习等方法相结合,利用数据解释和分析问题。信息技术的发展导致大量数据的产生,这就促进了数据科学的发展。从发展过程来看,数据科学经历了经验、理论、计算、数据驱动这4个阶段。 尽管在过去几十年里

重复测量的方差分析

微笑、不失礼 提交于 2020-01-29 00:10:08
重复测量的意义: 由于重复测量时,每个个体的测量结果之间存在一定程度的相关,违背了方差分析数据独立性的要求,如果仍使用一般的方差分析,将会增加犯 I 类错误的概率,所以重复测量资料有相对应的方差分析方法。 重复测量方差分析要求:( 需要考虑5个假设。) 假设1 :因变量唯一,且为连续变量; 假设2 :有两个受试者内因素(Within-Subject Factor),每个受试者内因素有2个或以上的水平。(注:在重复测量的方差分析模型中,对同一个体相同变量的不同次观测结果被视为一组,用于区分重复测量次数的变量被称为受试者内因素,受试者内因素实际上是自变量。) 假设3 :受试者内因素的各个水平,因变量没有极端异常值; 假设4 :受试者内因素的各个水平,因变量需服从近似正态分布; 假设5 :对于受试者内因素的各个水平组合而言,因变量的方差协方差矩阵相等,也称为球形假设。 结果分析: 各时点指标变量满足球形假设(Sphericity 假设 ) ,通常用 Mauchly 方法检验是否满足球形假设,若检验结果 P>0.05 ,认为满足;若 P<0.05 ,则不满足。当资料满足球形假设时,可直接进行一元方差分析;不满足时,应以多元方差分析结果为准 。 球形假设检验 (Mauchly’s test of sphericity),适用于重复测量时检验不同测量之间的差值的方差是否相等

机器学习的最佳入门学习资源

孤街醉人 提交于 2020-01-28 05:48:59
这是一篇很难写的文章,因为我希望这篇文章能对学习者有所启发。我在空白页前坐下,并且问自己了一个很难的问题:什么样的库、课程、论文和书籍对于机器学习的初学者来说是最好的。 文章里到底写什么、不写什么,这个问题真的让我很烦恼。我必须把自己当做一个程序员和一个机器学习的初学者,站在这个角度去考虑最合适的资源。 我找出了每个类型中最适合的资源。如果你是一个真正的初学者,并且乐意于开始了解机器学习领域的相关知识,我希望,你可以在我的文章中找到有用的资料。我的建议是,从中挑出一件来,一本书或者是一个库,反复阅读或者认真学习所有的相关教程。挑出一个并且坚持学习,直到你完全掌握,再重新选择一个,重复这个学习过程。现在就让我们开始吧! Programming Libraries 编程库资源 我是一个“学习要敢于冒险和尝试”观念的倡导者。这是我学习编程的方式,我相信很多人也是这样学习程序设计的。先了解你的能力极限,然后去拓展你的能力。如果你了解如何编程,可以将编程经验很快借鉴到深入学习机器学习上。在你实现一个实际的产品系统之前,你必须遵循一些规则、学习相关数学知识。 找到一个库并且仔细阅读相关文档,根据教程,开始尝试实现一些东西。下面列出的是开源的机器学习库中最好的几种。我认为,并不是他们中的每一种都适合用在你的系统中,但是他们是你学习、探索和实验的好材料。 你可以从一个由你熟悉的语言编写的库开始学习

机器学习——分类和回归

不羁的心 提交于 2020-01-28 03:20:31
1.机器学习的主要任务: 一是将实例数据划分到合适的分类中,即 分类问题 。 而是是 回归 , 它主要用于预测数值型数据,典型的回归例子:数据拟合曲线。 2.监督学习和无监督学习: 分类和回归 属于 监督学习 ,之所以称之为监督学习,是因为这类算法必须直到预测什么,即 目标变量的分类信息 。 对于 无监督学习 ,此时 数据没有类别信息,也不会给定目标值 。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被成为 聚类 ;将寻找描述数据统计值的过程称之为 密度估计 。此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或者三维图形更加直观地展示数据信息。 3.线性回归和非线性回归    线性回归 需要一个线性模型。一个 线性的模型 意味着模型的 每一项 要么是一个 常数 ,要么是 一个常数和一个预测变量的乘积 。一个线性等式等于每一项相加的和。等式: Response = constant + parameter * predictor + ... + parameter * predictor  <=>  Y = b o + b 1 X 1 + b 2 X 2 + ... + b k X k 在统计学中,如果一个回归方程是线性的,那么它的参数必须是线性的。但是可以转换预测变量加上平方,来使得模型产生曲线,比如 Y = b o + b 1 X 1 + b 2 X

统计学:几何分布、二项分布、泊松分布

人走茶凉 提交于 2020-01-25 21:58:15
一、几何分布 假设某种赌博游戏的胜率为 0.2 ,那么意味着你玩第一次就胜出的概率为 0.2 。 那玩第二次才胜出呢?“玩第二次才胜出”就意味着玩 第一次是失败的 ,而直到第二次才胜出,那么这件事发生的概率就是 0.8×0.2=0.16 。 那么第三次、第四次呢? 如果用 p 代表某件事发生的概率,则它不发生的概率为 1-p ,我们将此概率称为 q ,于是可以用下式计算任何具有这一性质的概率: 这个公式叫做概率的 几何分布 。变量 X 表示为了取得第一次成功所需进行的试验次数,为了在第 r 次试验时取得成功,首先要 先失败r-1次 。 几何分布同样适用于不等式。 P(X > r) 指的是为了取得第一次成功需要试验 r 次以上的概率。为了让需要进行的试验次数大于 r ,意味着前 r 次试验必须以失败告终。也就是说,将失败概率乘上 r 次就是所求的概率: 利用这个,可以求出 P(X ≤ r) ,即为了取得一次成功而需要尝试 r 次或 r 次以下的概率: 如果一个变量 X 的概率符合几何分布,且单次试验的成功概率为 p ,则可以写作: 几何分布的期望模式 在数学期望已知的情况下,就可以得出试验在成功之前需要试验的次数的期望值。 假设 X~Geo (0.2) ,那么: 如果将 x P (X=x )的累计总和画成图形: 将 xP (X=x) 的累计总和画成图形后,可以看出,随着 x 的变大

统计学面试经典问题

点点圈 提交于 2020-01-25 02:56:39
1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。 1) 大数定律 弱大数定律(通常指辛钦大数定律): a) 马尔科夫大数定律: 随机变量满足马尔科夫条件: 1 n 2 D ( ∑ k = 1 n ξ k ) → 0 \frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0 n 2 1 ​ D ( ∑ k = 1 n ​ ξ k ​ ) → 0 ,则样本均值依概率收敛于期望值。 b) 辛钦大数定律: 随机变量独立同分布,一阶矩存在且等于 a a a ,样本均值 依概率收敛 于期望值 a a a 。 强大数定律(柯尔莫哥洛夫): 随机变量独立同分布,一阶矩存在且等于 a a a ,样本均值 以概率1收敛 于期望值 a a a 。 2) 中心极限定理 Lindeberg-Levy 中心极限定理 (最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布): 随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots ,X_{n} X 1 ​ , X 2 ​ , ⋯ , X n ​ 独立同分布, 且具有有限的数学期望和方差 E ( X i ) = μ E(X_{i})=\mu E ( X i ​ ) = μ , D ( X i ) = σ 2 ≠ 0 ( i = 1

高等数理统计(五)

有些话、适合烂在心里 提交于 2020-01-24 23:47:04
引言   【比较官方的简介】数理统计学是一门以 概率论为基础 ,应用性很强的学科。它研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。   【简单的讲】,就是 通过样本分析来推断整体。   【意义或者重要性】在这个大数据时代,数据是非常重要的。怎样挖掘数据内部的规律或者隐含的信息,变得尤为重要。当时我们是不可能获得整体的数据的,所以我们只能通过抽取样本,进而通过样本来推断整体的规律。   【目录】    第一章、样本与统计量      一、引言:      二、总体与样本:      三、统计量:      四、常用分布:    第二章、参数估计     一、引言:      二、点估计—— 矩估计法 :     三、点估计—— 极大似然估计 :     四、估计量的优良性准则     五、区间估计——正态分布        1、引入       2、 单个正态总体参数的区间估计        3、两个正态总体的区间估计     六 、区间估计——非正态分布:       1、大样本正态 近似法       2、二项分布       3、泊松分布    第三章、假设检验     一、引言:     二

基础统计学--复习

戏子无情 提交于 2020-01-24 23:45:52
统计学 简介 统计学是一门独立的学科。 统计学研究的是随机现象,而数学研究的是确定性的规律。 统计学的应用性很强,许多概念和原理来自于实际需要。 数学在统计学中很重要。 什么是统计学? 简单来说, 统计学是一门教会我们如何同数据打交道,从中获取有用信息,并得出结论的学科。 统计学定义; 统计学是用来收集和分析数据的一门学科和艺术。 《大不列颠百科全书》 统计学,具体来说,就是一门关于数据收集、整理、描述和分析的学科。 试验设计是统计学的分支。 几个统计学概念 1.总体、总体容量(总体量) 2.个体 4.样本、样本容量(样本量) 5.变量(研究对象的特征或属性)、变量值 6.随机变量 主要内容 数据的收集与描述 收集 1.文献资料 2.观测 3.试验(自然科学研究,工业,好的试验设计的重要性) 4.问卷调查(社会科学,心理学,市场调研) 5.互联网(爬虫,电商) 6.物联网技术(会员卡,条形码) 数据的描述性分析 这里主要介绍一些基本概念,包括算数平均数,加权平均数,几何平均数,调和平均数,极差,四分位差,平均差,方差,标准差,离散系数,峰度等。还复习了下数据的标准化,及是非标志的平均数和标准差。 统计抽样推断 统计抽样推断主要包括参数估计和假设检验。 参数估计 假设检验(显著性检验) 所谓假设检验就是对一个总体参数或总体分布形式的假设,利用样本资料来检验其真或伪的可能性。