统计学

统计学第六周,第七周

倾然丶 夕夏残阳落幕 提交于 2019-12-12 01:41:08
本周是统计学学习小组-第二期的第六周,我们这周的学习内容是【抽样分布】,涉及到的二级知识点有两个,分别是: 1、常用统计量:样本均值、样本方差、样本变异系数、样本K阶矩、样本k阶中心距、样本偏度、样本峰度、次序统计量、充分统计量 2、常用抽样分布:卡方分布、T分布、F分布、中心极限定理(其他重要抽样分布)、样本比例的抽样分布、两个样本平均值之差的分布、样本方差的分布、两个样本方差比的分布 3、Python实现抽样分布的验证(正态分布、卡方分布、T分布、几何分布、等) https://pan.baidu.com/s/1leWEwmJA0mBtZX0RAK-dUQ 练手数据下载 参考书籍:统计学(贾俊平第七版)第六章 常用的统计量 设X1,X2,……Xn 是从某总体X中抽取的一个样本 样本均值: 样本方差: 样本变异系数: 样本K阶矩: 样本k阶中心距: 样本偏度: 样本峰度: 次序统计量: 充分统计量: 常用抽样分布 正态分布: # -*- coding: utf-8 -*- """ Created on Wed Dec 11 14:16:40 2019 @author: sen """ import pandas as pd import numpy as np import os os.chdir('F://Desktop//统计学第二期//第六周,第七周') data = pd

数理统计(一)——用Python进行方差分析

廉价感情. 提交于 2019-12-10 23:08:43
数理统计(一)——Python进行方差分析   iwehdio的博客园: https://www.cnblogs.com/iwehdio/   方差分析可以用来推断一个或多个因素在其状态变化时,其因素水平或交互作用是否会对实验指标产生显著影响。主要分为单因素方差分析、多因素无重复方差分析和多因素重复方差分析。   做数理统计课后题,发现方差分析计算比较麻烦,想用Python掉包实现。但是发现大多教程对参数的讲解不是很清楚,在此做记录。   主要用到的库是pandas和statsmodels。简要流程是,先用pandas库的DataFrame数据结构来构造输入数据格式。然后用statsmodels库中的ols函数得到最小二乘线性回归模型。最后用statsmodels库中的anova_lm函数进行方差分析。      首先,是输入的数据格式。使用pandas的DataFrame,每一行为一次试验的因素水平和试验结果。以下图中的题目为例。   则对于因素A和因素B即结果R可表示为如下的DataFrame: data = pd.DataFrame([[1, 1, 32], [1, 2, 35], [1, 3, 35.5], [1, 4, 38.5], [2, 1, 33.5], [2, 2, 36.5], [2, 3, 38], [2, 4, 39.5], [3, 1, 36], [3,

快速读懂机器学习(附送详细学习资源)

帅比萌擦擦* 提交于 2019-12-09 13:47:47
前言:   机器学习作为人工智能中的伟大分支,让我们先来聊聊人工智能把。现在人工智能已经非常普遍了,从之前的阿尔法狗到现在中国人工智能机器人解答北京高考数学卷 考了105分。以及2017.6.6的苹果WWDC大会上宣布开发机器学习API,苹果想通过借此之举,让更过苹果开发者用户开发出更过用户体验好的应用,人工智能的例子真是数不胜数,已经渗透到我们生活的各方各面,比较常见的比如金融以及医疗,而且之前看了一篇文章这样评价金融业:随着人工智能的发展与普遍,以后金融业对求职者的要求需要掌握人工智能相关知识来通过测试。好言归正传,我们来聊聊机器学习吧! 1. 什么是机器学习?   机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题. 简单来说就是机器通过分析大量数据来进行学习。 比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。 2. 机器学习主要涉及知识以及应用范围   机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律

机器学习该如何入门

做~自己de王妃 提交于 2019-12-08 11:24:56
引言   可能你对这个名字叫“机器学习”的家伙不是特别的了解,但是相信用过iPhone的同学都知道iPhone的语音助手Siri,它能帮你打电话,查看天气等等;相信大家尤其是美女童鞋都用过美颜相机,它能自动化的给我们拍出更漂亮的照片;逛京东淘宝的时候,细心的童鞋应该也会发现它们会有一个栏目“猜你喜欢”;最近异军突起的新闻客户端软件今日头条,它们就是会根据分析你的日常喜好给每个人推荐不同的新闻……没错,这些功能背后的核心就是今天要介绍的主题:机器学习。 什么是机器学习   对于这个问题的解释,说实话我很有压力,因为在分享篇文章之前就有朋友告诉我,这个百度上一搜一大片,还需要你讲吗?但是,我觉得并非如此。正如同一千个读者眼里有一千个林黛玉一样,我解释的当然是我个人自从读研到工作这么多年对机器学习的学习到应用过程的独特见解。   首先我们看下图了解一下机器学习在AI(Artificial Intelligence 人工智能)领域的地位。在图中,我们可以看到,机器学习是人工智能的一个子领域。而现在火的不要不要的 深度学习 其实是机器学习的一个子分支。 机器学习在人工智能中的地位 那么到底什么才是真正的机器学习呢?在这里我将对比我和学术界大神的解释: 大神的解释   机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身。简单一点说

AI入门指南

本小妞迷上赌 提交于 2019-12-08 11:24:44
笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 最近笔者身边越来越多,无论是不是计算机专业的人,都开始接触人工智能了。 笔者有一年多的AI自学经验, 学过几门课程、看过几本书 、参加过一些 比赛 和 项目 ,在这里做一个AI入门大全,希望可以解决萌新不知从何入门的难题。 1. 学什么?机器学习还是深度学习 笔者曾在 何为AI 中,介绍了人工智能,机器学习和深度学习的区别。 人工智能、机器学习、深度学习的逻辑关系图 总的来说, 机器学习是人工智能的一种实现方法,深度学习是机器学习的一个分支。 不过当我们平时谈及机器学习和深度学习的时候,我们常常用机器学习指传统的统计学习方法,而深度学习指使用神经网络的方法。 1.1 机器学习 机器学习是用统计学的方法,来实现数据预测、分类等问题。 常见的使用场景有: 商品推荐,个人信用评估,量化金融,医疗、交通领域大数据等等 。 常用的算法有:线性回归,SVM,朴素贝叶斯,决策树,模型集成等等。 经典机器学习算法表 机器学习很数学 ,很统计学。当你学习朴素贝叶斯、SVM这样的机器学习经典算法的时候就会理解数学的重要性。 除此之外,机器学习还 需要有对数据有很强的敏感度 。尤其是当你参加和机器学习有关的比赛和项目的时候,在做清洗数据、特征工程的时候,对数据的分析尤为重要。 有一句流传很广的话: 数据和特征决定了机器学习的上限

Adversarial Machine Learning(intro)

天大地大妈咪最大 提交于 2019-12-08 05:43:21
Adversarial Machine Learning 无意从一位老师的主页上看到了adversarial machine learning 该老师Benjamin Rubinstein(墨尔本大学)的个人主页 http://www.bipr.net/ 传统的统计机器学习(人工只能,数据挖掘,机器学习和统计)被成功的应用与很多产品中,并加强了大数据(数据科学和分析)的产业化趋势。经典的统计机器学习的任务包含了分类,回归,密度估计和聚类。衡量统计机器学习性能的标准主要是精度(统计角度)和运行时间/存储(计算角度)。如今,统计机器学习逐渐被应用于恶意行为狂妄蔓延的系统。此时,在统计机器学习中对数据的假设(比如,平稳,独立,又或者随机性)就和数据篡改或误用这一现实不匹配。 现在的大数 据的确很火,大家都在想着如何从海量数据中学习有效的知识,但这同时引起了很多人对用户隐私安全担忧。 顺应这个潮流,adversarial machine learning(对抗机器学习?) 出现了。 系统的袭击者总是希望破坏其的完整性,有效性和私密性,这激发我们以下两点研究兴趣: 1)评价已有机器学习的安全性和私密性 2)如何改进已有的机器学习,让其更加安全 Benjamin 利用了很多技术,如kernel methods,bayesian statistics,online learning theory

统计学基础知识(二)---推断统计学(Inferential Statistics)

有些话、适合烂在心里 提交于 2019-12-07 17:57:30
推断统计学(Inferential Statistics):利用样本信息对总体进行估计和假设检验。 总体(population) :在一个特定研究中所有感兴趣的个体组成的集合。 样本(sample) :总体的一个子集。 样本统计量(sample statistics) :样本数据的计算度量。 总体参数(population parameters) :总体数据的计算度量。 普查(census) :搜集总体全部数据的调查过程。 抽样调查(sampling survey) :搜集样本数据的调查过程。 点估计量(point estimator) :用来估计总体参数的样本统计量。 标准误差(standard error) :点估计量的标准差。 点估计(point estimate) :样本统计量的值。 边际误差(margin of error) :边际误差将参数(如均值或比值)估计中的随机抽样误差量进行量化。当置信区间对称时,边际误差是置信区间的一半。 区间估计(interval estimate) :在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由点估计加减边际误差得到。当我们用样本来对总体进行估计时,如果只是一个估计值的话,那就称为点估计。但是每次随机抽样计算出的结果都不一样,因此点估计不一定准,这时用一个区间来对总体进行估计会更准确。 总体均值的区间估计:1,σ已知:

机器学习入门科普:监督学习和无监督学习都是什么?都能干什么?

自古美人都是妖i 提交于 2019-12-06 16:38:46
导读: 学习究竟是什么? 简单来说,学习是在外部刺激下记住大部分以往的经验,从而能够实现改变的能力。 因此,机器学习是一种工程方法,对于增加或提高自适应变化的各项技术都十分重要。例如,机械手表是一种非凡的工件,但其结构符合静止定律,当外部变化发生变化时会变得没有任何用处。 学习能力是动物特别是人特有的,根据达尔文的理论,它也是所有物种生存和进化的关键要素。 机器虽然不能自主进化,但似乎也遵循同样的规律。 ▲自适应系统的示意图 Adaptive System: 适应系统 Parameter tuner/ trainer: 参数调整/训练器 Input elements: 输入元素 Feedback: 反馈 Output elements: 输出元素 Enviornment: 环境 机器学习的主要目标是学习、策划和改进数学模型,该数学模型可以使用由环境提供的相关数据进行一次或连续多次的训练得到,利用该数学模型推断未来并做出决定而不需要所有影响因素 (外部因素) 的全部知识。 换句话说,agent (从环境中接收信息的软件实体,选择达到特定目标的最佳行动并观察其结果) 采用统计学习方法,通过确定正确的概率分布,来预测最有可能成功 (具有最小错误) 的动作 (值或决策) 。 我更喜欢使用术语 推断 而不是 预测 ,只是为了避免把机器学习看成是一种现代魔法 (这种看法但并不罕见) 。此外

CDA 数据分析师 level1 part 5

断了今生、忘了曾经 提交于 2019-12-06 16:30:35
数据分析师-机器学习 数据分析师-机器学习 机器学习概念 机器学习概念 ●机器学习研究如何让计算机不需要明确的程序也能具备学习能力。( Arthur Samuel,1959) ●一个计算机程序在完成了任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称其为学习。(Tom Mitchell11977) 虽然机器学习的研究来源于人工智能领域,但是机器学习的方法却应用于数据科学领域,因此我们将机器学习看作是一种数学建模更合适。 机器学习的本质就是借助数学模型理解数据。当我们给模型装上可以适应观测数据的可调参数时,“学习”就开始了;此时的程序被认为具有从数据中“学习”的能力。一旦模型可以拟合旧的观测数据,那么它们就可以预测并解释新的观测数据。 模型构建流程 第一步:获取数据 既然我们机器学习是借助数学模型理解数学,那么最重要的原材料就是数据了。获取数据通常指的是获取原始数据,当然这里可以是一手数据,也可以是二手数据,关键看机器学习的学习任务。 “数据决定机器学习结果的上限,而算法只是尽可能的逼近这个上限”,可见数据在机器学习中的作用。那么一般而言对于数据我们有哪些要求呢? 数据要具有代表性,数据需要包含尽可能多的信息,数据也需要同学习任务有关联性。 对于监督学习中的分类问题,数据偏斜不能过于严重

逻辑回归模型分析

雨燕双飞 提交于 2019-12-06 16:22:26
2、逻辑(logistics)回归 逻辑回归可以进行二分类和多分类,下面分别进行讨论: 1)二项逻辑回归(二分类)   假如我们现在需要对一类物品进行二分类,首先根据物品的多个特征,然后将物品的多个特征进行线性组合,这和我们上面讨论的多元线性模型有点类似。只是我们现在不是需要拟合平面(空间)上的点,而是需要将平面(空间)上的不同类别的点区分开来。   多元线性模型为:h(x)=a 0 +a 1 x 1 +a 2 x 2 +…+a n x n   我们可以直接使用多元线性模型来对物品进行分类,通过设置一个阀值,然后将所有h(x)大于阀值的样本分为一类,其他的分为另一类。但这种方式存在一个问题,由于h(x)的值是任意大小的,阀值的选择是一件困难的事情,若我们对其进行归一化处理,则阀值的选择就相对简单很多。 设阀值为:t,则 为了方便表述,设: 在此我们使用sigmoid函数对其进行归一化。 此时,若我们使用平方最小误差函数来估算参数,由于归一化后的函数为非凸函数,故而不能使用梯度下降法来找到其最小值。但我们使用极大似然估计的方法估计模型参数。 由于是二分类,可以设: 所以似然函数为: 对数似然函数: 对L(a)求极大值,得到a的估计值。为了能使用梯度下降算法,我们在对数似然函数前面加上负号,这样就可以求其最小值: 每次让参数a向对数似然函数的负梯度方向移动一小步。 //推导过程很简单