分位数

Python分位数的计算

若如初见. 提交于 2020-02-11 01:39:26
案例1 Ex1: Given a data = [6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36],求Q1(25分位), Q2(50分位), Q3(75分位), IQR Solving: 步骤: 1. 排序,从小到大排列data,data = [6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49] 2. 计算分位数的位置 3. 给出分位数 分位数计算法一 pos = (n+1)*p,n为数据的总个数,p为0-1之间的值 Q1的pos = (11 + 1)*0.25 = 3 (p=0.25) Q1=15 Q2的pos = (11 + 1)*0.5 = 6 (p=0.5) Q2=40 Q3的pos = (11 + 1)*0.75 = 9 (p=0.75) Q3=43 IQR = Q3 - Q1 = 28 import math def quantile_p(data, p): pos = (len(data) + 1)*p #pos = 1 + (len(data)-1)*p pos_integer = int(math.modf(pos)[1]) pos_decimal = pos - pos_integer Q = data[pos_integer - 1] + (data[pos_integer] - data

数据聚合与分组运算(四)

南楼画角 提交于 2020-02-05 13:22:57
上一篇:数据聚合与分组运算(三) 数据聚合 聚合指的是任何能够从数组产生标量值的数据转换过程。 ===================================== 使用你自己的聚合函数,只需将其传入aggregate或agg方法即可 分位数和桶分析 用cut将其装入长度相等的桶中 ===================================== 由cut返回的Categorical对象可直接传递到groupby。 ===================================== 这些都是长度相等的桶。要根据样本分位数得到大小相等的桶,使用qcut即可。传 入labels=False即可只获取分位数的编号 ++++++++++++++++++++++++++++++++++++ 下一篇:数据聚合与分组运算(五) 来源: CSDN 作者: LinGavinQ 链接: https://blog.csdn.net/qq_42893334/article/details/104179780

分位数映射数据后处理-Quantile Mapping后处理 (R语言)

雨燕双飞 提交于 2020-01-21 11:50:50
统计后处理器基本上是统计模型,将观察到的关注变量与从气象或水文模型的直接模型输出(DMO)导出的适当预测变量相关联。统计后处理的重要性早已在气象预报中得到认可。早期的工作包括完善的预测(perfect prognosis),模型输出统计(MOS)和模拟方法(analog method)等模型。 近年来,已经提出了许多其他后处理方法,包括秩直方图校准(rank histogram calibration),分位数映射(quantile mapping,QM)和集成预处理器(ensemble preprocessor, EPP)。几种基于贝叶斯定理的模型已被研发了,以将先前的气候学信息与实时预测相结合,例如输出的贝叶斯处理器(Bayesian processor of output, BPO),预测的贝叶斯处理器(Bayesian processor of forecast, BPF)和集合贝叶斯处理器(Bayesian processor of ensemble, BPE)。 同时,也存在多种基于回归的模型,包括集成模型输出统计(EMOS),逻辑回归(logistics regress, LR),分位数回归(quantile regression, QR)和逐成员方法(member-by-member approach)。今天,介绍一种简单的后处理方法,分位数映射(Quantile

数据分析实践入门(四):数据运算

巧了我就是萌 提交于 2019-12-09 12:49:21
作者 | CDA数据分析师 进行到这一步就可以开始正式的烹饪了。前面我们列举了不同纬度的分析指标,这一章我们主要看看这些指标都是怎么计算出来的。 一、算术运算 算术运算就是基本的加减乘除,在Excel或Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算,Excel 中的算术运算比较简单,这里就不展开了,下面主要介绍Python中的算术运算。 列相加的具体实现如下所示。 两列相减的具体实现如下所示。 两列相乘的具体实现如下所示。 两列相除的具体实现如下所示。 任意一列加/减一个常数值,这一列中的所有值都加/减这个常数值,具体实现如下所示。 任意一列乘/除一个常数值,这一列中的所有值都乘/除这一常数值 二、比较运算 比较运算和Python基础知识中讲到的比较运算一致,也是常规的大于、等于、小于之类的,只不过这里的比较是在列与列之间进行的。常用的比较运算符见2.9.2节。 在Excel中列与列之间的比较运算和Python中的方法一致,例子如下图所示。 下面是一些Python中列与列之间比较的例子。 三、汇总运算 讲到的算术运算和比较运算都是在列与列之间进行的,运算结果是有多少行的值就会返回多少个结果,而汇总运算是将数据进行汇总返回一个汇总以后的结果值。 1、 count非空值计数 非空值计数就是计算某一个区域中非空(单元格)数值的个数。

描述性统计

♀尐吖头ヾ 提交于 2019-12-04 04:43:21
数据的集中趋势 众数 众数是样本观测值在频数分布表中频数最多的那一组的组中值,主要应用于大面积普查研究之中。 众数是在一组数据中,出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。 一组数据中的众数不止一个,如数据2、3、-1、2、1、3中,2、3都出现了两次,它们都是这组数据中的众数。 一般来说,一组数据中,出现次数最多的数就叫这组数据的众数。 例如: 1,2,3,3,4的众数是3。 但是,如果有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数。 1,2,2,3,3,4的众数是2和3。 还有,如果所有数据出现的次数都一样,那么这组数据没有众数。 1,2,3,4,5没有众数。 计算方法: 分位数 分位数(Quantile),亦称分位点,是指将一个 随机变量 的 概率分布 范围分为几个等份的数值点,常用的有 中位数 (即二分位数)、 四分位数 、 百分位数 等。 ​ 分位数指的就是连续分布函数中的一个点,这个点对应概率p。若 概率 0<p<1, 随机变量 X或它的 概率分布 的分位数Za,是指满足条件p(X≤Za)=α的实数 常见分类 二分位数 对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数,即二分位数。 一个数集中最多有一半的数值小于中位数

机器学习常用的损失函数

纵然是瞬间 提交于 2019-11-29 14:28:40
分类损失函数 一、LogLoss对数损失函数(逻辑回归,交叉熵损失)   有些人可能觉得逻辑回归的损失函数就是平方损失,其实并不是。 平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到 ,而逻辑回归得到的并不是平方损失。在逻辑回归的推导中,它假设样本服从 伯努利分布(0-1分布) ,然后求得满足该分布的似然函数,接着取对数求极值等等。而逻辑回归并没有求似然函数的极值,而是把极大化当做是一种思想,进而推导出它的经验风险函数为: 最小化负的似然函数(即max F(y, f(x)) —> min -F(y, f(x))) 。从损失函数的视角来看,它就成了log损失函数了。 log损失函数的标准形式 :   刚刚说到,取对数是为了方便计算极大似然估计,因为在MLE(最大似然估计)中,直接求导比较困难,所以通常都是先取对数再求导找极值点。损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下,使概率P(Y|X)达到最大值(换言之, 就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大 )。因为log函数是单调递增的,所以logP(Y|X)也会达到最大值,因此在前面加上负号之后,最大化P(Y|X)就等价于最小化L了。   逻辑回归的P(Y=y|x)表达式如下(为了将类别标签y统一为1和0

数据分析-统计知识(二)

柔情痞子 提交于 2019-11-27 02:34:00
4.切比雪夫不等式、马尔可夫不等式 切比雪夫不等式: 马尔可夫不等式: 5.五数概括法、箱线图 最小值、第一四分位数、中位数、第三四分位数、最大值 6.皮尔逊相关系数 7.贝叶斯定理,计算后验概率 来源: https://www.cnblogs.com/Jacon-hunt/p/11331283.html

学习笔记(二)数据挖掘概念与技术

时间秒杀一切 提交于 2019-11-26 14:59:03
1中心趋势度量:均值(mean)、中位数、众数 截尾均值:丢掉高低极端值后的均值 加权算术均值(加权平均): 中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。 用插值法计算中位数的近似值: median= 其中 是中位数区间的下界,N是整个数据集中值的个数, 是低于中位数区间的所有区间的频率和, 是中位数区间的频率,而width是中位数区间的宽度。 众数(mode):集合中出现最频繁的值,可以对定性和定量属性确定众数。(可能出现多个众数) 对于适度倾斜(非对称)的单峰数值数据,有经验关系: ,就是说如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。 中列数(midrange):是数据集的最大和最小值的平均值 。具有完全对称的数据分布的单峰频率曲线中,均值、中位数、众数相同 2度量数据散布:极差、四分位数、方差、标准差和四分位数极差 (1)极差:最大值与最小值之差。分位数:取自数据分布的每隔一定间隔上的点,把数据划分成 基本上 大小相等的连贯集合。2-分位数对应于中位数,4-分位数是3个数据点,把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量,给出数据中间一半所覆盖的范围称为四分位数极差(IQR)=Q3-Q1 (2)五数概括、盒图与离群点 识别可疑离群点的通常规则是,挑选落在第三个四分位数之上或者Q1之下至少1