相关系数

特征选择

眉间皱痕 提交于 2019-12-04 23:38:00
特征选择 特征选择方法是从原始特征数据集中选择子集,是一种包含的关系,没有更改原始的特征空间。主要是为了减少特征数量、降维,减少过拟合使模型泛化能力更强以及增强对特征与特征值之间的理解。 (1) Filter方法:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。卡方检验、信息增益、相关系数。 (2) Wrapper 方法: 将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个优化问题,这里有很多的优化算法可以解决这个问题。递归特征消除算法等。 (3) Embedded 方法: 在模型既定的情况下学习出对提高模型准确性最好的属性。 特征选择在战场中的应用 1 去掉取值变化小的特征 Removing features with low variance 这应该是最简单的特征选择方法了:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理

pandas的数据统计函数

牧云@^-^@ 提交于 2019-12-04 08:53:22
# 1汇总类统计 # 2唯一去重和按值计数 # 3 相关系数和协方差 import pandas as pd # 0 读取csv数据 df = pd.read_csv("beijing_tianqi_2018.csv") df.head() # 换掉温度后面的后缀 df.loc[:,"bWendu"] = df["bWendu"].str.replace("℃","").astype("int32") df.loc[:,"yWendu"] = df["yWendu"].str.replace("℃","").astype("int32") df.head(3) # 1 汇总类统计 # 一下子提取所有数字列的统计结果 df.describe() # 查看单个Series的数据 df["bWendu"].mean() # 最高温 df["bWendu"].max() # 最低温 df["bWendu"].min() # 2 唯一去重和按值计数 # 2.1 唯一性去重 一般不用于数值列,而是枚举、分类列 df["fengxiang"].unique() df["tianqi"].unique() df["fengli"].unique() # 2.2 按值计数(降序排列) df["fengxiang"].value_counts() df["tianqi"].value_counts()

爬取知乎如何通俗易懂地解释「协方差」与「相关系数」的概念?

和自甴很熟 提交于 2019-12-03 17:16:06
'最喜欢通俗易懂地解释一个事情。', '<b>一、协方差:', '可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?', '你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。', '你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。', '从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。', '咱们从公式出发来理解一下:', '', '公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。', '下面举个例子来说明吧:', '比如有两个变量X,Y,观察t1-t7(7个时刻)他们的变化情况。', '简单做了个图:分别用红点和绿点表示X、Y,横轴是时间。可以看到X,Y均围绕各自的均值运动,并且很明显是同向变化的。', '这时,我们发现每一时刻的值与的值的“正负号”一定相同(如下图:比如t1时刻,他们同为正,t2时刻他们同为负):', '所以,像上图那样,当他们同向变化时,与的乘积为正。这样,当你把t1-t7时刻与的乘积加在一起,求平均后也就是正数了。', '如果反向运动呢?', '很明显,的值与的值的“正负号”一定相反,于是与的乘积就是负值了

计算相关性系数

匿名 (未验证) 提交于 2019-12-03 00:33:02
转自: http://www.omicshare.com/forum/thread-741-1-1.html 范例文件(txt)是一个20个样本,30个基因的表达量表格矩阵。每一行是1个基因,每一列对应1个样本。 这是一个典型的数据框文件。现在我要计算两两样本间的表达量的相关系数,并且对相关系数的结果绘制热图,该怎么做呢?只要两步: (1)计算相关系数; 在R语言里面,相关系数的命令是 cor。这个命令是可以计算两个向量的相关系数。但你如果输入数据是数据框的,而且cor命令自动计算 所有列( 向量)的两两相关系数(范例文件列方向正好是样本)。 (2)绘制热图 绘制热图可以使用pheatmap这个命令。 代码如下: ############ library(pheatmap) #加载pheatmap 包; data=read.table("exp_top30.original.txt",header=T,row.names=1,sep="\t") matrix=cor(data) #计算相关系数; write.table(matrix,"coefficient_matrix.txt",sep="\t") #将相关系数计算结果输出存储到你的电脑里,存储为1个txt文件; pheatmap(matrix,cluster_rows=F,cluster_cols=F,display

【机器学习】几种相似度算法分析

匿名 (未验证) 提交于 2019-12-03 00:30:01
最近开始研究推荐系统,其中常见的相似度算法有以下几种: 1. 欧几里得距离 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 注意事项: a.因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。 b.欧几里得距离是数据上的直观体现,看似简单,但在处理一些受主观影响很大的评分数据时,效果则不太明显;比如,U1对Item1,Item2 分别给出了2分,4分的评价;U2 则给出了4分,8分的评分。通过分数可以大概看出,两位用户褒Item2 ,贬Item1,也许是性格问题,U1 打分更保守点,评分偏低,U2则更粗放一点,分值略高。在逻辑上,是可以给出两用户兴趣相似度很高的结论。如果此时用欧式距离来处理,得到的结果却不尽如人意。即评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度。 2. 皮尔逊相关系数 Pearson 相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关)

统计中的三种相关系数及Matlab实现

点点圈 提交于 2019-12-02 12:36:22
在多元分析中我们经常要用到相关系数。常用的相关系数有三种:Pearson相关系数,Kendall相关系数和Spearman相关系数。 一、Pearson相关系数 Pearson相关系数是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。 按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦. 皮尔逊相关的约束条件 1 两个变量间有线性关系 2 变量是连续变量 3 变量均符合正态分布,且二元分布也符合正态分布 4 两变量独立 皮尔逊相关系数适用于: (1)两个变量之间是线性关系,都是连续数据。 (2)两个变量的总体是正态分布,或接近正态的单峰分布。 (3)两个变量的观测值是成对的,每对观测值之间相互独立。 二、Kendall相关系数 Kendall相关系数是以 Maurice Kendall 命名的,并经常用希腊字母τ(tau)表示其值。Kendall相关系数用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况,Kendall相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。 三、Spearman相关系数 Spearman等级相关系数又称秩相关系,它以Charles Spearman命名

相关性模型-相关系数

瘦欲@ 提交于 2019-11-30 03:37:34
相关系数可用来衡量两个变量之间的相关性大小,根据数据满足的不同条件,选择不同的相关系数进行计算分析。 两种常用的相关系数:皮尔逊person和斯皮尔曼spearman。 总体和样本: 皮尔逊相关系数:(要求数据要都是符合正态分布的数据,而且数据需线性相关) 必须先确认两个变量时线性相关的( 画样本散点图先观察是否线性 ),然后此系数才能告诉他们相关程度如何。如果计算的相关系数为0,只能说明非线性相关。 不能说协方差大的两个变量比协方差小的两个变量更相关,因为没有消除变量的量纲的影响。皮尔逊相关系数就是协方差消除量纲后的结果。 样本皮尔逊相关系数同总体皮尔逊相关系数: 由于皮尔逊相关系数只是衡量已知线性相关的两个变量的相关程度,其他情况不适用: 对相关性大小的解释: 根据具体事情具体分析,没有标准大小的阈值规定。比起相关系数大小,我们更关注其显著性。(假设检验) 对皮尔逊相关系数进行假设检验: 如:求出相关系数r=0.3,问是否和0(非线性相关)有显著差异? 经假设检验求出03与0有显著差异的,就可说明变量的相关性是显著的;若求出0.3和0没有显著差异,可说明变量并不相关,相关系数不显著。 步骤: 对皮尔逊相关系数构造统计变量,知道统计量的分布,就可以画出统计变量的概率密度函数。将计算出的皮尔曼相关系数带入统计变量,得到一个检验值,根据置信水平画出统计变量接受域和拒绝域

方差、标准差、协方差、相关系数

最后都变了- 提交于 2019-11-29 21:19:15
链接:https://www.cnblogs.com/raorao1994/p/9050697.html 方差、标准差、协方差、相关系数 【方差】   (variance)是在概率论和统计方差衡量 随机变量 或一组数据时离散程度的度量。概率论中方差用来度量 随机变量 和其 数学期望 (即 均值 )之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的 平均数 。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。(百度百科)      在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:      实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:   S^2= ∑(X- ) ^2 / (n-1) S^2为样本方差,X为变量, 为样本均值,n为样本例数。(无偏估计) 【标准差】   标准差(Standard Deviation) ,中文环境中又常称 均方差 ,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。标准差也被称为 标准偏差 ,或者实验标准差

【转】协方差与相关系数

陌路散爱 提交于 2019-11-29 11:15:53
转载:http://redstonewill.com/1511/ 什么是协方差(Covariance)? 1 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 协方差是怎么来的? 简单地来说,协方差就是反映两个变量 X 和 Y 的相互关系。这种相互关系大致分为三种: 正相关、负相关、不相关 。 什么是正相关呢?例如房屋面积(X)越大,房屋总价(Y)越高,则房屋面积与房屋总价是正相关的; 什么是负相关呢?例如一个学生打游戏的时间(X)越多,学习成绩(Y)越差,则打游戏时间与学习成绩是负相关的; 什么是不相关呢?例如一个人皮肤的黑白程度(X)与他的身体健康程度(Y)并无明显关系,所以是不相关的。 我们先来看第一种情况,令变量 X 和变量 Y 分别为: X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30] Y = [12 15 17 21 22 21 18 23 26 25 22 28 24 28 30 33 28 34 36 35]

二 数据探索

蓝咒 提交于 2019-11-28 16:37:05
1 数据质量分析 数据质量分析是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。其主要任务是检查原始数据中是否存在脏数据: (1)缺失值 (2)异常值(outliers) (3)不一致的值 (4)重复数据及含有特殊符号的数据 1.1 缺失值分析 1.2 异常值分析 异常值是指样本中数值明显偏离其余观测值的个别值,也称为离群点。 (1)简单统计量分析 先对变量做描述性统计,检查数据是否合理。常用的统计量是最大、最小值。 (2)3σ 原则 (3)箱型图分析 1.3 一致性分析 数据不一致是指数据中存在矛盾、不相容。 2 数据特征分析 2.1 分布分析 定量数据:频率分布表、频路分布直方图、茎叶图 定性分类数据:饼图、条形图 定量数据的分布分析 选择“组数”和“组宽” (1)求极差 (2)确定组距与组数 (3)确定分点 (4)列出频率分布表 (5)绘制频率分布直方图 主要原则: (1)各组间互斥 (2)各组必须包含所有数据 (3)各组组宽相等 定性数据分布分析 对于定性变量,常根据变量的分类类型进行分组,可以采用饼图和条形图描述定性变量的分布。 2.2 对比分析 对比分析是指比较两个相互联系的指标,从数量上展示、说明研究对象规模、水平、速度,以及各种关系是否协调,适用于指标间的横纵向比较、时间序列比较分析。对比分析主要形式有: (1)绝对数值比较:通过绝对数对比,寻找差异;