统计学

机器学习之三:logistic回归(最优化)

混江龙づ霸主 提交于 2020-03-12 04:53:10
  一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用logistic回归。 logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。 logistic回归的假设函数如下,线性回归假设函数只是 。 logistic回归用来分类0/1问题,也就是预测结果属于0或者1的二值分类问题。这里假设了二值满足伯努利分布,也就是 当然假设它满足泊松分布、指数分布等等也可以,只是比较复杂,后面会提到线性回归的一般形式。 求最大似然估计,然后求导,得到迭代公式结果为 可以看到与线性回归类似,只是 换成了 ,而 实际上就是 经过g(z)映射过来的。 Logistic 回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1. 应用范围: ① 适用于流行病学资料的危险因素分析 ② 实验室中药物的剂量 - 反应关系 ③ 临床试验评价 ④ 疾病的预后因素分析 2. Logistic 回归的分类: ① 按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ② 按研究方法分: 条 件 Logistic 回归 非条件 Logistic 回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。 3.L ogistic

机器学习-线性回归

♀尐吖头ヾ 提交于 2020-03-10 05:17:01
机器学习-线性回归算法简单理解 一、基本含义 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 二、拟合方程 我们所采用的拟合方程为最小二乘法,可以计算出对于y=bx+a的直线。 可以计算出对于y=bx+a的直线。同时可以表示为y = x.T*w , x = [x0 x1].T , w = [b w].T; 三、损失函数 其原理为真实值与预测值的差值 实现过程 一、导入相关模块 import pandas as pd import matplotlib . pyplot as plt import numpy as np import random 二、生成数据集 x , y = [ ] , [ ] for i in range ( 1 , 100 ) : x . append ( [ 1 , 2 * ( i + random . uniform ( - 0.3 , 0.3 ) ) + 3 + random . random ( ) ] ) y .

概率论总结

你。 提交于 2020-03-08 09:31:15
概率论总结 概率论各章关系   首先数学的发展使得我们对于确定的现象的描述已经可以相当精确了,但是还有一部分的现象是“说不清楚的”,这种说不清楚的性质就是有一定的随机性,为了更好地描述这一性质概率由此而生,而研究概率的性质的学科概率论也应运而生。而早期的概率论用于描述的事情很是简单,比如说掷硬币的概率,抽彩的概率所以早期的概率称之为“古典概率”,是基于这样两个事实的:1、基本事件是等可能发生的2、组成全体的基本事件是有限的。而后随着对于随机现象的进一步的深入的认识我们发现很多的事情的基本事件是无法穷举的所以产生了,但是为了,描述上的形象形成了基于几何性质的概率——几何概率。这样对于可列无穷以及不可列事件对应于不同的图形来描述就更浅显易懂了。比如说射箭的中环的概率。只不过这种的概率依旧是建立在有面积的地方是均匀分布的前提之下的——即基本事件对应的概率是一样的,或者说面积一样的区域块的概率一样。当然这种均匀性是我们假设的条件,如果这一条件不成立,也就是第三阶段的现代概率论雏形。我们引入了概率的公理化定义,在测度论上定义概率是在可测空间上的对应于任何一个子集的实值集函数。于是研究了在这个空间上的对应于集合的几种性质以及运算法则。   为了更好的研究概率我们在概率空间定义了随机变量并研究了在这个基础之上的概率的随着随机变量的不同取值的分布情况,所以有了随机变量(离散

蒙特卡洛模拟

半城伤御伤魂 提交于 2020-03-07 10:16:28
Monte Carlo:一般采用实验的方法来研究随机变量的分布,反复实验取得随机变量的样本,用样本的分布来近似地代替随机变量分布。有了概率分布,就可以用数学来模拟实际的物理过程,得到随机变量的样本。(Stanislaw Marcin Ulam, Enrico Fermi, John von Neumann Nicholas Metropolis) 频率--概率 在计算机上容易产生服从均匀分布的 随机数 ,而任意分布的随机数可以由均匀分布为基础而产生。 1.Monte Carlo模拟某一过程时,需要产生各种概率分布的随机变量。 2.用统计方法把模型的数字特征估计出来,从而得到实际问题的数值解。 计算机上,用数学递推公式产生。这样产生的序列,与真正的随机数序列不同,所以称为伪随机数,或伪随机数序列。不过,经过多种统计检验表明,它与真正的随机数,或随机数序列具有相近的性质,因此可把它作为真正的随机数来使用。 建立各种估计量:构造了概率模型并能从中抽样后,即实现模拟实验后,我们就要确定一个随机变量,作为所要求的问题的解,我们称它为无偏估计。 随机变量的分布, IDL 来源: https://www.cnblogs.com/haizhupan/p/4158736.html

用R理解统计学

若如初见. 提交于 2020-03-07 06:58:37
1、随机变量( random variable)概念的引入 该数据来自杰克逊实验室。2组数据,每组12只老鼠,一组普通食物,另一组高脂肪(hf)饮食。几周后,科学家们称了每只老鼠的体重,得到了这个数据: dir <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/" filename <- "femaleMiceWeights.csv" url <- paste0(dir, filename) dat <- read.csv(url) library(dplyr) control <- filter(dat,Diet=="chow") %>% select(Bodyweight) %>% unlist #其中%>%相当于管道符,fileter相当于Excel中按关键词行筛选,select为列筛选,只保留你提到的变量 treatment <- filter(dat,Diet=="hf") %>% select(Bodyweight) %>% unlist print(mean(treatment)) print(mean(control) ) obsdiff <- mean(treatment) - mean(control) #3.020833 print(obsdiff)

机器学习之数据探索——数据质量分析

ぐ巨炮叔叔 提交于 2020-03-06 22:01:49
数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质、描述数据的形态特征并解释数据的相关性。 换句话说,透过数据探索,我们应该可以回答如下问题: 样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求? 问题驱动发展,对以上问题进行解答,涉及到数据探索的两个方面工作: 数据质量分析 数据特征分析 需要提及的是,数据探索与数据预处理紧密相连的,二者在数据挖掘的中没有绝对的先后次序。比如,在数据质量分析中,就牵涉到数据预处理中的数据清洗。 本文将主要介绍数据质量分析的相关工作。 数据质量分析 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,脏数据包括以下方面: 1 缺失值 2 异常值 3 不一致的值 4 重复数据以及含有特殊符号(如#、¥、*)的数据 对于第四种数据,理解起来比较简单,处理也很容易,因此主要针对前三种数据进行分析,至于处理手段,所用到的方法是数据预处理中的数据清洗内容。 1 缺失值 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确。 (1)缺失值产生原因 1)有些信息暂时无法获取,或者获取代价太大。 2)有些信息被遗漏。可能是忘记填写或对数据理解错误等因素,也可能是由于数据采集设备的故障造成。 3)属性值不存在。在某些情况下

机器学习 - 统计学中的均值、方差、标准差

为君一笑 提交于 2020-03-05 02:29:49
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 方差: 标准差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的。 方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。 而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 来源: CSDN 作者: weixin_45664706 链接: https://blog.csdn.net/weixin_45664706/article/details/104652506

时间序列分析

泪湿孤枕 提交于 2020-03-01 17:28:44
时间序列是按时间顺序的一组数字序列。 时间序列的特点: 现实的、真实的一组数据,而不是数理统计中做实验得到的。既然是真实的,它就是反映某一现象的统计指标,因而,时间序列背后是某一现象的变化规律。 动态数据。 时间序列建模基本步骤是: 用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。 根据动态数据作相关图,进行相关分析,求自相关函数。相关图能显示出变化的趋势和周期,并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。 辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。当观测值多于50个时一般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。 时间序列分析是定量预测方法之一。它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断

阿里云:第1章 机器学习介绍

怎甘沉沦 提交于 2020-02-29 16:10:31
课时2.云计算大数据及人工智能 云计算: 是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。 大数据:无法在可承受的时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 别人提到"大数据"的时候,可能包括一大堆内容,比如: 数据采集,存储与计算,分析与应用,人工智能 云计算与大数据 云计算提供存储和计算的基础设置,大数据是运行在其上的实际应用 电力系统(云计算) 电器设备(大数据) 人工智能 人工智能:就是会学习的计算机程序 弱人工智能(AlphaGo) 强人工智能 超人工智能 人工智能与棋类游戏 课时3 什么是机器学习 机器学习的定义: 机器学习: (1)对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个机算机程序在从经验E学习。 (2)机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。 适用场景: 1.不宜针对问题进行手工编程 2.不能定义该问题的解决方案 3.基于复杂数据的快速决策 4.大规模的个性化系统 数据挖掘

机器学习概述

你。 提交于 2020-02-24 20:37:41
一.基本概念 有监督学习 对具有概念标记(分类)的训练样本进行学习,以便尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。 样本已知 无监督学习 对没有概念标记(分类)的训练样本进行学习,以便发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的歧义性高。聚类就是典型的无监督学习。 样本未知 准确率与召回率: 召回率也叫查全率,准确率也叫查准率。 二.数据集 KDD 99数据 KDD是知识发现与数据挖掘(Knowledge Discovery and Data Mining) HTTP DATASET CSIC 2010 包含大量标注过的针对Web服务的36000个正常请求以及25000个攻击请求,攻击类型包括sql注入、缓冲区溢出、信息泄露、文件包含、xss等,被广泛用于WAF类产品的功能评测 SEA数据集 ADFA-LD数据集 主机级入侵检测系统的数据集合 Alexa域名数据 Alexa是当前拥有URL数量最庞大、排名信息发布最详尽的网站。 Scikit-Learn数据集 最常见的是iris数据集。 MNIST数据集 入门级的计算机视觉数据集 Movie Review Data 包含1000条正面的评论和1000条负面的评论,用于文本分类,恶意评论识别方面 SpamBase数据集 入门级的垃圾邮件分类训练集、 三