z-score

数据归一化/标准化

落爺英雄遲暮 提交于 2020-03-22 17:34:47
''' 【课程2.3】 数据归一化/标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。 在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权 最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上 0-1标准化 / Z-score标准化 ''' import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline # 数据标准化 # (1)0-1标准化 # 将数据的最大最小值记录下来,并通过Max-Min作为基数(即Min=0,Max=1)进行数据的归一化处理 # x = (x - Min) / (Max - Min) df = pd.DataFrame({"value1":np.random.rand(10)*20, 'value2':np.random.rand(10)*100}) print(df.head()) print('------') # 创建数据 def data_norm(df,*cols): df_n = df.copy() for col in cols: ma = df_n[col].max() mi = df_n

数据清洗 | 通过 Z-Score 方法判断异常值

谁说我不能喝 提交于 2020-02-27 13:30:58
判断异常值方法:Z-Score 计算公式 Z = (X-μ)/σ 其中μ为总体平均值,X-μ为离均差,σ表示标准差。z的绝对值表示在标准差范围内的原始分数与总体均值之间的距离。当原始分数低于平均值时,z为负,以上为正。 代码演示 1 生成一个 df 1 import pandas as pd # 导入pandas库 2 # 生成异常数据 3 df = pd.DataFrame({'col1': [1, 120, 3, 5, 2, 12, 13], 4 'col2': [12, 17, 31, 53, 22, 32, 43]}) 2 通过Z-Score方法判断异常值 1 df_zscore = df.copy() # 复制一个用来存储Z-score得分的数据框 2 cols = df.columns # 获得数据框的列名 3 4 for col in cols: # 循环读取每列 5 df_col = df[col] # 得到每列的值 6 z_score = (df_col - df_col.mean()) / df_col.std() # 计算每列的Z-score得分 7 # 判断Z-score得分是否大于2.2,(此处2.2代表一个经验值),如果是则是True,否则为False 8 df_zscore[col] = z_score.abs() > 2.2 9 10 print

03-motifs 图机器学习之motif和结构角色

霸气de小男生 提交于 2020-02-06 23:48:42
Motifs and Structure Roles in Networks 子图/子网络:subnetworks→network中的组成部分,可用于描述网络特性或区分网络 例子:3个节点的有向子图的不同形态 对于每一个subgraph: 假设我们有一度量工具可以用于对subgraph的重要性(显著性?)进行评估: 负值表示under-representation (不能很好的表征,欠表征?) 正 值表示over-representation (过表征?) 定义网络重要性(显著性?)(network significance profile):一个特征向量,向量中的元素值为所有子图的类型 那么,接下来,我们需要比较不同网络的profiles: 从下图中,横轴是不同的子图类型,纵轴是 归一化后的z score( 应该是指重要度,但此处未给出重要度是如何计算出来的)。不同的曲线表示同类网络中的不同地域/应用。由曲线可得,同类网络具备相似的significance profiles 因此,今天的任务: 1)子图: 定义及发现motifs和graphlet; 2)网络的结构角色:RolX: Structural Role Discovery Method 发现工具 3)发现 Structural Role以及其的应用:结构相似度;角色生成与迁移学习;Making sense of

数据标准化处理

非 Y 不嫁゛ 提交于 2020-01-18 02:39:33
Z-score 标准化 在R语言中: scale() 适用范围 1.数据的最大值和最小值未知 2.有超出取值范围的离群数据 经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为: x∗=(x−μ)/σ 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 缺点 估算Z-Score需要 总体 的平均值与方差,但是很难得到,大多数情况下是用 样本 的均值与标准差替代。 对于数据的分布有一定的要求,正态分布是最有利于Z-Score计算的。 Z-Score消除了数据具有的实际意义,算出来的值与之前的变量已经没有关系了,因此Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。 min-max标准化 /0-1标准化/离差标准化 对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下: 其中max为样本数据的最大值,min为样本数据的最小值。 如果想要将数据映射到[-1,1],则将公式换成: x∗=(x−xmean)/(xmax−xmin) x_mean表示数据的均值。 缺陷 当有新数据加入时,可能导致max和min的变化,需要重新定义 使用情况 1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。 2、在不涉及距离度量

异常值检测方法(Z-score,DBSCAN,孤立森林)

只愿长相守 提交于 2019-12-06 06:19:15
机器学习_深度学习_入门经典(博主永久免费教学视频系列) https://study.163.com/course/courseMain.htm?courseId=1006390023&share=2&shareId=400000000398149 微信扫二维码,免费学习更多python资源 数据预处理的好坏,很大程度上决定了模型分析结果的好坏。(Garbage In Garbage Out!) 其中,异常值(outliers)检测是整个数据预处理过程中,十分重要的一环。方法也是多种多样。比如有基于经典统计的方法——三倍于标准差之上的数据为异常值等等。 由于异常值检验,和去重、缺失值处理不同,它带有一定的主观性。所以,想请问一下各位大牛,平时你们更愿意相信哪种或哪几种异常值检测的方法。 作者:阿里云云栖社区 链接:https://www.zhihu.com/question/38066650/answer/549125707 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 异常值检测的常见四种方法,分别为Numeric Outlier、Z-Score、DBSCA以及Isolation Forest 在训练机器学习算法或应用统计技术时,错误值或异常值可能是一个严重的问题,它们通常会造成测量误差或异常系统条件的结果,因此不具有描述底层系统的特征。实际上

z-score,beta,SE换算

泪湿孤枕 提交于 2019-12-03 03:56:42
换算公式:z-score=beta/SE 如果是从GWAS summary数据换算的话就是:z-score=Effect/StdErr 来源: https://www.biostars.org/p/140292/ 来源: https://www.cnblogs.com/chenwenyan/p/11775828.html