统计模型

统计学习方法中的标注问题

泪湿孤枕 提交于 2020-02-04 14:29:11
统计学习方法中的标注问题 标注问题也是监督学习中的一个分支,很多关于机器学习的书籍在监督学习中的书中都没有提过提过标注问题,而只将监督学习分为分类问题和回归问题两大类。 其实标注问题在时间序列分析中很常见,给定一个样本由一个特征序列和预测序列组成,也就是我们训练数据中所说的输入变量和输出变量,模型通过很多的样本训练,以至于可以对于一个特征序列能给出一个预测效果最好的预测序列。 处理标注问题的模型,我们现在主要使用神经网络的方法。因为有些神经网络可以对数据产生“记忆”,比如可以长期记忆的lstm模型,而且可以在训练过程中对“记忆”进行取舍,保留有用的,去掉无用的。还有比如只考虑近期状态的rnn模型。这两种模型在不同的应用场景各有各的优点。当然,现在也有将这两种模型合并的如lstm-rnn模型。 来源: CSDN 作者: weixin_43327597 链接: https://blog.csdn.net/weixin_43327597/article/details/104167458

统计学习方法笔记

烂漫一生 提交于 2020-02-03 03:33:55
统计学习方法概论 1.1 统计学习 统计学习 (statistics learning): 计算机 基于 数据 构建 概率统计模型 并运用 模型 对 数据 进行 预测与分析 。也称为 统计机器学习 (statistics machine learning)。 统计学习的特点: 以 计算机及网络 为平台,是建立在计算机及网络之上的; 以 数据 为研究对象,是数据驱动的学科; 目的是对 数据 进行 预测与分析 ; 统计学习以 方法 为中心,统计学习方法构建 模型 并应用模型进行预测与分析; 是 概率论、统计学、信息论、计算理论、最优化理论及计算机科学等 多个领域的交叉学科; // 现在我们所说的机器学习,往往是指 统计机器学习 。 统计学习的对象 数据(data) 。 首先呢,统计学习从数据出发,提取数据的特征,抽象出数据中的模型,发现数据中的知识,最终又回到对数据的分析预测中去。 其次,作为统计学习的对象,数据是多样的,它包括存在于计算机及网络上的各种 数字 、 文字 、 图像 、 视频 、 音频 数据以及它们的组合。 关于数据的基本假设: 同类数据具有一定的统计规律性。 (什么叫“同类数据”:具有某种共同性质的数据,比如英文文章,互联网网页,数据库中的数据等,它们具有统 计规律性 ,所以可以用 概率统计方法 来进行处理。比如,可以用随机变量描述数据中的特征

Django 数据聚合函数 annotate

隐身守侯 提交于 2020-01-28 06:11:09
统计各个分类下的文章数 2 周,3 日前 字数 3818 阅读 546 评论 21 在我们的博客侧边栏有分类列表,显示博客已有的全部文章分类。现在想在分类名后显示该分类下有多少篇文章,该怎么做呢?最优雅的方式就是使用 Django 模型管理器的 annotate 方法。 模型回顾 回顾一下我们的模型代码,Django 博客有一个 Post 和 Category 模型,分别表示文章和分类: blog/models.py class Post(models.Model): title = models.CharField(max_length=70) body = models.TextField() category = models.ForeignKey('Category') # 其它属性... def __str__(self): return self.title class Category(models.Model): name = models.CharField(max_length=100) 我们知道从数据库取数据都是使用模型管理器 objects 的方法实现的。比如获取全部分类是: Category.objects.all() ,假设有一个名为 test 的分类,那么获取该分类的方法是: Category.objects.get(name='test')

统计学习介绍

这一生的挚爱 提交于 2020-01-25 11:11:21
统计学习介绍 统计学习 :是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。(统计学习是一门数据驱动的学科,统计学习方法构建数学模型并应用模型对数据进行分析和预测)。 统计学习从数据出发,抽取数据的特征,抽象出数学模型,发现数据中的知识,然后对数据进行分析与预测。(数据是多样的,包括数字、文字、图像、视频、音频等,主要分连续的和离散的)。 统计学习的前提是假设同类数据具有一定的统计规律性(这里的同类数据是指具有某种共同性质的数据),用随机变量描述数据中的特征,用概率分布描述数据的统计规律。 统计学习方法包括模型的假设空间(假设要学习的模型属于某个函数的集合)、模型选择的准则和模型学习的算法。< 统计学习从训练数据出发,假设数据是独立同分布的,并且假设要学习的模型在假设空间中,应用某个评价准则,从假设空间中选取最优的模型,对已知的数据和未知的数据在给定的评价准则下有最优的预测,最优模型的选取由算法实现 >。 统计学习方法的三要素: 模型 、 策略 、 算法 。 统计学习方法 步骤 如下: 得到训练数据的集合, 确定包含所有模型的假设空间(所有要学习模型的集合), 确定模型选择的准则(学习策略), 实现求最优解的算法(学习算法), 利用最优模型对数据进行分析和预测。 统计学习主要应用于:处理海量数据(对数据进行预测和分析,找出数据的关联语义),计算机智能化。

1. 2 监督学习

雨燕双飞 提交于 2020-01-23 05:15:34
个人随感,不可轻信,如有意见,欢迎指点。 统计学习包括监督学习、非监督学习、半监督学习及强化学习。 1.2.1 监督学习 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测,计算机的基本操作就是给定一个输入,产生一个输出。 1.2.1 基本概念: 1、 输出空间、特征空间与输出空间 在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间,输入与输出空间可以是有限元素的集合, 也可以是整个欧式空间,输入空间与输出空间可以是同一个空间,也可以是不同的空间,但通常输出空间远远小于输入空间。 每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示, 这时,所有的特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。 在监督学习过程中,将输入与输出看做是定义在输入(特征)空间与输出空间上的随机变量的取值,输入、输出变量用大写字母表示,习惯上输入变量写作 X,输出变量写作 Y, 变量可以是标量或向量,都用相同类型字母表示,输入实例 x 的特征向量记作: x = (x^(1),^, x ^(2)^, …… x^(n)^ ) ^T^ 输入空间可以看做由 n 维特征构成的空间,如输入有两个特征组成,那么输入空间就可以看成 由 x 和 y 轴构成的二维平面

概率、统计、最大似然估计、最大后验估计、贝叶斯定理、朴素贝叶斯、贝叶斯网络

匆匆过客 提交于 2020-01-18 02:17:58
这里写自定义目录标题 概率和统计是一个东西吗? 概率函数与似然函数 最大似然估计(MLE) 最大后验概率估计 最大后验估计的例子 贝叶斯派观点 VS 频率派观点 贝叶斯定理 朴素贝叶斯分类器 朴素贝叶斯分类器实例 贝叶斯网络 贝叶斯网络的结构形式 因子图 从贝叶斯网络来观察朴素贝叶斯 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计是,有一堆数据,要利用这堆数据去预测模型和参数。 仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然, 本文解释的MLE(最大似然估计)和MAP(最大后验估计)都是统计领域的问题。它们都是用来推测参数的方法(不是推测模型

统计学习的基本概念

谁说我不能喝 提交于 2020-01-02 19:32:21
一、统计学习的定义及特点 统计学习是关于计算机基于数据构建概率统计模型并根据模型进行预测与分析的一门学科。统计学习也称统计机器学习。现在,我们所说的机器学习一般就是指统计机器学习。 统计学习的主要特点是: 1.统计学习以计算机及网络为平台; 2.统计学习以数据为研究对象; 3.统计学习的目的是对数据进行预测和分析; 4.统计学习以方法为中心,构建模型并应用模型进行预测分析; 5.统计学习由多个学科交叉,并逐渐形成独自的理论体系与方法论。 二、统计学习的对象与目的 统计学习的对象当然是数据,统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。 对数据的预测和分析是通过建立概率统计模型实现的,统计学习总的目标是学习什么样的模型,以及怎样学习模型,以使模型能更准确地预测和分析,同时考虑尽可能地提高效率。 三、统计学习的方法简介 统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。统计学习方法包含模型的假设空间、模型选择的准则以及模型学习的算法,称为统计学习的三要素,简称模型、策略和算法。 实现统计学习的步骤如下: (1)得到一个有限的数据集合; (2)确定包含所有可能的模型的假设空间,即学习模型的集合; (3)确定模型选择的准则,即学习的策略; (4)实现最优模型的算法,即学习的算法; (5)通过学习方法选择最优模型; (6

《统计学习方法学习》算法学习笔记(一)之感知机

丶灬走出姿态 提交于 2019-12-30 09:44:53
感知机 总述 感知机是 二类分类 的 线性分类模型 ,其 输入 为实例的 特征向量 , 输出 为 实例的类别 ,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的 分离超平面 ,属于 判别模型 。感知机学习旨在求出将训练数据进行线性化分的分离超平面,为此,导入基于 误分类的损失函数 ,利用 梯度下降法 对损失函数极小化,求得感知机模型。感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学到的感知机模型对新的输入实例进行分类。 1.1 感知机模型 定义 :假设输入空间(特征空间) x x x 是 R n \R^n R n ,输出空间是 y y y ={-1, +1},输入 x x x 表示实例的特征向量,对应于输入空间(特征空间)中的点,输出 y y y 表示实例的类别。由输入空间到输出空间的如下函数 f ( x ) = s i g n ( w ∗ x + b ) f(x)=sign(w*x+b) f ( x ) = s i g n ( w ∗ x + b ) 称为感知机 。其中, w w w 和 b b b 称为感知机模型参数, w ∈ R n w∈R^n w ∈ R n 叫权值或权值向量, b ∈ R b∈R b ∈ R 叫作偏置, w ∗ x w*x w ∗ x 表示 w w w 和 b b b 的内积, s i g n

异常值探测的相关理论及方法

牧云@^-^@ 提交于 2019-12-23 04:56:10
 摘要: 异常值是影响统计数据质量的一个非常重要的因素,一直以来,我国的统计界以及社会各界均对此问题 给予 很高的关注。所以,近年来有关异常值的理论探讨一直是个热点问题。但是目前研究的重点一直放在统计法 律制度的 健全以及统计工作程序完善等方面。虽然这两点确实能提高统计数据的质量,但对于已经形成的统计数 据,在进行统 计分析之前,我们更关注的是统计数据的误差问题,即所提供的统计数据与客观的社会经济现象实 际的数量特征之间 的差距问题。异常值的存在,使得统计分析的误差大大增大,小则出现差错,大则可能发生事 故,甚至可能会导致严 重的宏观决策失误。因此,在利用已得数据进行统计分析之前,必须对异常值进行探测和 检验。 关键词: 异常值 定义 方法 一、概述 异常数据挖掘,又称为离群点分析或者孤立点挖掘。在人们对数据进行分析处理的过程中,经常会遇到少量 这样的数据,它们与数据一般模式不一致,或者说与大多数样相比有些不一样。我们称这样的数据为异常数据, 对异常数据的处理在某些领域很有价值,例如在网络安全领域,可以利用异常数据挖掘来分析网络中的异常行 为;在金融领域异常数据挖掘可以识别信用卡的欺诈交易、股市的操控行为、会计信息的虚假报价、欺诈贷款 等。 异常数据挖掘涉及两个基本问题。其一,在对一个给定的数据集分析之前必须事先约定满足什么样的数据才 是异常数据,也就是异常数据定义的问题。其二