Numpy基础入门(6)统计函数和排序

ⅰ亾dé卋堺 提交于 2020-01-16 09:59:26

统计函数

1.numpy.amin() 和 numpy.amax(),这些函数从给定数组中的元素沿指定轴返回最小值和最大值。

>>>import numpy as np 
>>>a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
>>>a 
array([[3, 7, 5],
       [8, 4, 3],
       [2, 4, 9]])

>>>np.amin(a,1)  
array([3, 3, 2])

>>>np.amin(a,0)  
array([2, 4, 3])

>>>np.amax(a)  
9

>>>np.amax(a, axis =  0)
array([8, 7, 9])

2.numpy.ptp()函数返回沿轴的值的范围(最大值 - 最小值)。

>>>import numpy as np 
>>>a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
>>>a 
array([[3,7,5],[8,4,3],[2,4,9]])

>>>np.ptp(a)  
7

>>>np.ptp(a, axis =  1)  
array([4, 5, 7])
 
>>>np.ptp(a, axis =  0)
array([6, 3, 6])

3.numpy.percentile()百分位数是统计中使用的度量,表示小于这个值得观察值占某个百分比。

函数numpy.percentile()接受以下参数。

numpy.percentile(a, q, axis)

序号 参数及描述
1 a 输入数组
2 q 要计算的百分位数,在 0 ~ 100 之间
3 axis 沿着它计算百分位数的轴
>>>import numpy as np 
>>>a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
>>>a 
array([[3, 7, 5],
       [8, 4, 3],
       [2, 4, 9]])

>>>np.percentile(a,50)  
 4.0

>>>np.percentile(a,50, axis =  1)  
array([ 5.,  4.,  4.])

>>>np.percentile(a,50, axis =  0)
array([ 3.,  4.,  5.])

4.numpy.median()中值定义为将数据样本的上半部分与下半部分分开的值。

>>>import numpy as np 
>>>a = np.array([[30,65,70],[80,95,10],[50,90,60]])  
>>>a 
array([[30, 65, 70],
       [80, 95, 10],
       [50, 90, 60]])

>>>np.median(a)  
65.0

>>>np.median(a, axis =  0)  
array([ 50.,  90.,  60.])

>>>np.median(a, axis =  1)
array([ 65.,  80.,  60.])

5.numpy.mean()算术平均值是沿轴的元素的总和除以元素的数量。 numpy.mean()函数返回数组中元素的算术平均值。 如果提供了轴,则沿其计算。

>>>import numpy as np 
>>>a = np.array([[1,2,3],[3,4,5],[4,5,6]])  
>>>a 
array([[1, 2, 3],
       [3, 4, 5],
       [4, 5, 6]])
  
>>>np.mean(a)  
3.6666666666666665

>>>np.mean(a, axis =  0)  
array([ 2.66666667,  3.66666667,  4.66666667])

>>>np.mean(a, axis =  1)
array([ 2.,  4.,  5.])

6.numpy.average()加权平均值是由每个分量乘以反映其重要性的因子得到的平均值。

numpy.average()函数根据在另一个数组中给出的各自的权重计算数组中元素的加权平均值。 该函数可以接受一个轴参数。 如果没有指定轴,则数组会被展开。

考虑数组[1,2,3,4]和相应的权重[4,3,2,1],通过将相应元素的乘积相加,并将和除以权重的和,来计算加权平均值。加权平均值 = (14+23+32+41)/(4+3+2+1)

>>>import numpy as np 
>>>a = np.array([1,2,3,4])  
>>>a 
array([1, 2, 3, 4])
 
>>>np.average(a)  
2.5

# 不指定权重时相当于 mean 函数
wts = np.array([4,3,2,1])  
>>>np.average(a,weights = wts)  
2.0

# 如果 returned 参数设为 true,则返回权重的和   
>>>np.average([1,2,3,  4],weights =  [4,3,2,1], returned =  True)
(2.0, 10.0)

在多维数组中,可以指定用于计算的轴。

>>>import numpy as np 
>>>a = np.arange(6).reshape(3,2)  
>>>a 
array([[0, 1],
       [2, 3],
       [4, 5]])

wt = np.array([3,5])  
>>>np.average(a, axis =  1, weights = wt)  
array([ 0.625,  2.625,  4.625])
 
>>>np.average(a, axis =  1, weights = wt, returned =  True)
(array([ 0.625,  2.625,  4.625]), array([ 8.,  8.,  8.]))

7.标准差

标准差是与均值的偏差的平方的平均值的平方根。标准差公式如下:

std = sqrt(mean((x - x.mean())**2))

如果数组是[1,2,3,4],则其平均值为2.5。 因此,差的平方是[2.25,0.25,0.25,2.25],并且其平均值的平方根除以4,即sqrt(5/4)是1.1180339887498949。

8.方差

方差是偏差的平方的平均值,即mean((x - x.mean())** 2)。 换句话说,标准差是方差的平方根。

排序

NumPy中提供了各种排序相关功能。这些排序函数实现不同的排序算法,每个排序算法的特征在于执行速度,最坏情况性能,所需的工作空间和算法的稳定性。 下表显示了三种排序算法的比较。

种类 速度 最坏情况 工作空间 稳定性
‘quicksort’(快速排序) 1 O(n^2) 0
‘mergesort’(归并排序) 2 O(n*log(n)) ~n/2
‘heapsort’(堆排序) 3 O(n*log(n)) 0

1.numpy.sort()

sort()函数返回输入数组的排序副本。 它有以下参数:

numpy.sort(a, axis, kind, order)

序号 参数及描述
1. a 要排序的数组
2. axis 沿着它排序数组的轴,如果没有数组会被展开,沿着最后的轴排序
3. kind 默认为’quicksort’(快速排序)
4. order 如果数组包含字段,则是要排序的字段
>>>import numpy as np  
>>>a = np.array([[3,7],[9,1]])  
>>>a 
array([[3, 7],
       [9, 1]])

>>>np.sort(a)  
array([[3, 7],
       [1, 9]])

>>>np.sort(a, axis =  0)  
array([[3, 1],
       [9, 7]])

# 在 sort 函数中排序字段 
>>>dt = np.dtype([('name',  'S10'),('age',  int)]) 
>>>a = np.array([("raju",21),("anil",25),("ravi",  17),  ("amar",27)], dtype = dt)  
>>>a 
array([('raju', 21), ('anil', 25), ('ravi', 17), ('amar', 27)], 
      dtype=[('name', 'S10'), ('age', '<i4')])

>>>np.sort(a, order =  'name')
array([('amar', 27), ('anil', 25), ('raju', 21), ('ravi', 17)], 
      dtype=[('name', 'S10'), ('age', '<i4')])

2.numpy.argsort()

numpy.argsort()函数对输入数组沿给定轴执行间接排序,并使用指定排序类型返回数据的索引数组。 这个索引数组用于构造排序后的数组。

>>>import numpy as np 
>>>x = np.array([3,  1,  2])  
>>>x 
array([3, 1, 2])

>>>y = np.argsort(x)  
>>>y 
array([1, 2, 0], dtype=int64)

>>>x[y]  
array([1, 2, 3])
 
>>>for i in y:  
   		print x[i],
1 2 3

3.numpy.lexsort()

函数使用键序列执行间接排序。 键可以看作是电子表格中的一列。 该函数返回一个索引数组,使用它可以获得排序数据。 注意,最后一个键恰好是sort 的主键。


>>>import numpy as np 
>>>nm =  ('raju','anil','ravi','amar') 
>>>dv =  ('f.y.',  's.y.',  's.y.',  'f.y.') 
>>>ind = np.lexsort((dv,nm))  
>>>ind 
array([3, 1, 0, 2], dtype=int64)

>>> [nm[i]  +  ", "  + dv[i]  for i in ind]
['amar, f.y.', 'anil, s.y.', 'raju, f.y.', 'ravi, s.y.']

4.numpy.argmax() 和 numpy.argmin()

这两个函数分别沿给定轴返回最大和最小元素的索引。

>>>import numpy as np 
>>>a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
>>>a 
array([[30, 40, 70],
       [80, 20, 10],
       [50, 90, 60]])

>>>np.argmax(a)  
7
 
>>>a.flatten()  
array([30, 40, 70, 80, 20, 10, 50, 90, 60])

maxindex = np.argmax(a, axis =  0)  
>>>maxindex 
array([1, 2, 0], dtype=int64)
 
maxindex = np.argmax(a, axis =  1)  
>>>maxindex 
array([2, 0, 1], dtype=int64)

minindex = np.argmin(a)  
>>>minindex 
5

>>>a.flatten()[minindex]  
10

minindex = np.argmin(a, axis =  0)  
>>>minindex 
array([0, 1, 1], dtype=int64)

minindex = np.argmin(a, axis =  1)  

>>>minindex
array([0, 2, 0], dtype=int64)

5.numpy.nonzero()

numpy.nonzero()函数返回输入数组中非零元素的索引。


>>>import numpy as np 
>>>a = np.array([[30,40,0],[0,20,10],[50,0,60]])  
>>>a 
array([[30, 40,  0],
       [ 0, 20, 10],
       [50,  0, 60]])

>>>np.nonzero (a)
(array([0, 0, 1, 1, 2, 2], dtype=int64), array([0, 1, 1, 2, 0, 2], dtype=int64))

6.numpy.where()

where()函数返回输入数组中满足给定条件的元素的索引。


>>>import numpy as np 
>>>x = np.arange(9.).reshape(3,  3)  
>>>x 
array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.],
       [ 6.,  7.,  8.]])

>>>y = np.where(x >  3)  
>>> y 
(array([1, 1, 2, 2, 2], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))

>>> x[y]
array([ 4.,  5.,  6.,  7.,  8.])

7.numpy.extract()

extract()函数返回满足任何条件的元素。

>>>import numpy as np 
>>>x = np.arange(9.).reshape(3,  3)  
>>>x 
array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.],
       [ 6.,  7.,  8.]])

# 定义条件 
condition = np.mod(x,2)  ==  0  
>>>condition 
array([[ True, False,  True],
       [False,  True, False],
       [ True, False,  True]], dtype=bool)

>>>np.extract(condition, x)
array([ 0.,  2.,  4.,  6.,  8.])
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!