描述统计

数据的描述统计

有些话、适合烂在心里 提交于 2020-04-05 16:58:03
一、用图表示数据 定量变量的图表示(直方图、盒形图、茎叶图、散点图) 类型 表示 优点 缺点 用途 直方图 横轴为若干个等宽度的空间,纵轴表示各个区间的频数 体现的样本的频率分布,大致估计总体的分布;容易表示大量数据 无法显示原始数据 看数据各个部分的分布情况 盒形图 横轴为类别,盒子表示数据最小值、最大值、上下四分位点以及离群点 可以看出数据的分布情况以及离群点 无法显示原始数据 看数据各个部分的分布情况 茎叶图 数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面 从统计图上没有原始数据信息的损失;茎叶图中的数据可以随时记录,随时添加,方便记录与表示 只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据;数据量过大不方便显示 数据量不多时需要同时观看数据的分布情况与原数据 散点图 每个点代表一个观测值,横纵坐标分别代表观测值相对于横纵坐标的取值 快速发现多个变量间的主要相关性 适合看两个变量之间的关系(使用气泡图可以增加变量,气泡的颜色大小可以定义为变量,但容易使图显得混乱) 比较跨类别的聚合数据 定性的图表示(饼图和条形图) 类型 表示 优点 缺点 用途 饼图 有许多扇形组成的圆,扇形大小比例等于各个类别的频数或相关数量的比例 描述比例比较直观 不适合描述类别比较多的情况 需要了解各个类别的比例情况,且类别数量不多 条形图

pandas描述性统计与计算

梦想与她 提交于 2020-03-10 08:24:27
一、汇总统计及其方法 二、相关性和协方差 1、相关性: .corr() .corrwith()可以计算出DataFrame中的行或列与另一序列或DataFrame的相关性 2、协方差: .cov() 三、唯一值、计数和成员属性 (一)唯一值.unique() 计数.value_counts()默认按照降序来排序 例如: import numpy as np import pandas as pd obj = pd.Series([‘c’,‘a’,‘d’,‘a’,‘a’,‘b’,‘b’,‘c’,‘c’]) s =obj.unique() print(s) print(obj.value_counts()) (二)成员属性 1、isin用于执行向量化的成员属性检查,即用来检测某个元素是否在某个范围内,返回值为布尔型,还可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集 例如: import numpy as np import pandas as pd obj = pd.Series([‘c’,‘a’,‘d’,‘a’,‘a’,‘b’,‘b’,‘c’,‘c’]) print(obj) s=obj.isin([‘b’,‘c’]) print(s) 来源: CSDN 作者: DAN_L 链接: https://blog.csdn.net/DAN_L/article

图像特征提取三大法宝:HOG特征,LBP特征,Haar特征

喜欢而已 提交于 2020-02-07 04:46:25
图像特征提取三大法宝:HOG特征,LBP特征,Haar特征 (一)HOG特征 1、HOG特征: 方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的,而如今虽然有很多行人检测算法不断提出,但基本都是以HOG+SVM的思路为主。 (1)主要思想: 在一副图像中,局部目标的表象和形状(appearance and shape)能够被梯度或边缘的方向密度分布很好地描述。(本质:梯度的统计信息,而梯度主要存在于边缘的地方)。 (2)具体的实现方法是: 首先将图像分成小的连通区域,我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。 (3)提高性能: 把这些局部直方图在图像的更大的范围内(我们把它叫区间或block)进行对比度归一化(contrast-normalized),所采用的方法是:先计算各直方图在这个区间(block)中的密度,然后根据这个密度对区间中的各个细胞单元做归一化

并发案例:如何保证统计变量的原子性

给你一囗甜甜゛ 提交于 2019-12-25 16:29:54
文章目录 引言 i++ 数据不一致案例分析 案例描述 问题分析 解决办法 AtomicInteger 原子类概述 案例描述 问题分析 延伸测试 启示录 引言 i++ 这个简单的语句,想必大家都不陌生,但是在多线程环境下,如果 i 是一个全局共享变量,那么它还能正确地按顺序累加吗?这就是本文要介绍的内容,如何保证统计变量的原子性。 其实, i++ 是由 “读取-修改-写入” 三个操作序列组成的复合操作,应该保证它们的原子性,否则就会出现数据不一致的情况。本文是根据笔者几年前的一篇旧文整理的,那时刚入行两年,并发编程经验几乎为零。 i++ 数据不一致案例分析 案例描述 笔者早年参与的一个项目中,需要对一个 http 请求请求结果进行统计,得到失败和成功的请求总数。一起合作的同事定义了两个全局共 来源: CSDN 作者: 毕小宝 链接: https://blog.csdn.net/wojiushiwo945you/article/details/103693060

数据类型转换及描述统计

做~自己de王妃 提交于 2019-12-05 04:00:40
处理数据的时候往往需要对原始数据进行类型转换和预览等操作,下面介绍常用的处理预览和数据转换方法 预览:例: import pandas as pd sec_weather = pd.read_table(r'D:\weather.csv',sep=',') sec_weather.head() 如果只需要预览数据的几行信息,可以使用head方法和tail方法。head方法返回数据集的开头5行,tail方法返回数据集的末尾5行。 还可以进一步查看数据集有多少观测和多少变量,以及每个月变量都是什么数据类型。例如: print('数据集的行列数:\n',sec_weather.shape) print('各变量的数据类型:\n',sec_weather.dtypes) 通过得出的结论可以看出各数据的类型,可对各数据类型进行进行转换 例如: pd.to_datatime(sec_weather.xxx,format = '%Y年%m月') sec_weather.xxx.str[:-1].astype('float') sec_weather.dtypes 描述性统计 describe() sec_weather.describe() 通过基本的统计量(如最小值,均值,中位数,最大值等)描述数据的特征。 来源: https://www.cnblogs.com/tinglele527/p

Pandas 之 描述性统计案例

家住魔仙堡 提交于 2019-12-04 19:06:36
认识 jupyter地址: https://nbviewer.jupyter.org/github/chenjieyouge/jupyter_share/blob/master/share/pandas-%20%E6%8F%8F%E8%BF%B0%E6%80%A7%E7%BB%9F%E8%AE%A1.ipynb import numpy as np import pandas as pd pandas objects are equipped(配备的) with a set of common mathematical and statistical methods. Most of these fall into the categrory of reductions or summary statistics, methods that exract(提取) a single value(like the sum or mean) from a Series of values from the rows or columns of a DataFrame. Compared with the similar methods found on NumPy arrays, they built-in handling for missiing data. Consider a

Python描述性统计numpy

匿名 (未验证) 提交于 2019-12-02 22:51:30
import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import datasets,preprocessing from sklearn.model_selection import learning_curve from sklearn.model_selection import train_test_split,GridSearchCV,cross_val_score from sklearn.ensemble import ExtraTreesClassifier from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score,classification_report,confusion_matrix from pandas import read_csv data_set=read_csv("Smarket.csv") data = data_set.values[:,:] # 平均数 np.mean(data_set) np.mean(data_set["Lag1"]) # 中位数 np.median(data_set["Lag1

MATLAB09:统计与拟合

烈酒焚心 提交于 2019-11-30 04:40:14
MATLAB09:统计与拟合 统计 描述性统计(Descriptive Statistics) 中心趋势(Central Tendency) 变异(Variation) 离散程度 偏度(Skewness) 峰度(Kurtosis) 统计推断(Inferential Statistics) 拟合 多项式拟合 一元多项式拟合:`polyfit()` 多元线性拟合:`regress()` 非线性拟合 插值 一维插值 二维插值 统计 描述性统计(Descriptive Statistics) 描述性统计主要研究数据的 中心趋势 (Central Tendency)和 变异 (Variation). 中心趋势(Central Tendency) 函数 作用 mean() 计算平均值 median() 计算中位数 mode() 计算众数 prctile() 计算百分位数 max() 计算最大值 min() 计算最小值 X = [1 3 5 5 5 5 7 9 9 9 10 13 14]; mean(X); % 数据的平均值为 7.3077 median(X); % 数据的中位数为 7 mode(X); % 数据的众数为 5 prctile(X, 0); % 数据的0%分位数为 0 prctile(X, 50); % 数据的50%分位数为 7 prctile(X, 100); % 数据的100

EXCEL中的数据分析—描述统计

安稳与你 提交于 2019-11-29 19:10:25
今天给大家分享的是在数据分析中很重要的一环,也就是描述统计。在百科的解释中,描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。在这三个部分当中,集中趋势主要是靠数据当中的平均数、中数、众数等统计指标来表示。离中趋势主要是靠数据当中的四分差、平均差、方差和标准差等统计指标来进行研究。最后一个相关分析之前有跟大家介绍过,主要是看数据之间是否存在统计学上的关联性并进行分析和研究。 我们今天主要是介绍一下针对我们的数据如何用EXCEL进行描述统计分析。我们先来看一下我们今天需要用到的数据: 如上图所示,为某班级期中考试部分同学考试成绩,现在我们需要针对这部分同学成绩进行描述统计分析。 一般来说,样本数据分布区间、标准差等都是描述样本数据范围及波动大小的统计量,但是如果我们直接进行计算会较为繁琐。因为这些都是描述样本数据的常用变量,所以我们直接使用 Excel 数据分析中的“描述统计”就可以直接得出我们需要的结果。 在开始的时候,我们需要在数据栏中的分析模块里选择数据分析(如果大家的EXCEL中没有此模块需要单独添加,在之前最早的文章中有给大家分享过如何进行添加)。在弹出的数据分析框中选择描述统计即可弹出描述统计分析界面:

纹理特征描述之灰度差分统计特征(平均值 对比度 熵) 计算和比较两幅纹理图像的灰度差分统计特征 matlab代码实现

落爺英雄遲暮 提交于 2019-11-28 19:56:23
灰度差分统计特征有: 平均值: ​ 对比度: ​ 熵: ​ i表示某一灰度值,p(i)表示图像取这一灰度值的概率 close all;clear all;clc; % 纹理图像的灰度差分统计特征 J = imread('qiang1.jpg'); A = double(J); [m,n] = size(A); B = A; C = zeros(m,n); for i=1:m-1 for j=1:n-1 B(i,j) = A(i+1,j+1); C(i,j) = abs(round(A(i,j)-B(i,j))); end end h = imhist(mat2gray(C))/(m*n); mean = 0;con=0;ent=0; %均值mean,对比度con,熵ent for i=1:256 mean = mean + (i*h(i))/256; con = con+i*i*h(i); if(h(i)>0) ent = ent-h(i)*log2(h(i)); end end mean,con,ent ​ ​ qiang1.jpg qiang2.jpg ​ ​ 可以看到qiang1.jpg的对比度更高;熵值更高,图像更加混乱;均值更大,图像看起来颜色偏深一点。 来源: https://www.cnblogs.com/wojianxin/p/11425052.html