方差

数据分析

一个人想着一个人 提交于 2019-12-02 06:23:45
@ TOC 不懂统计和数据分析讲的是什么?看这篇就够了 python爬虫人工智能大数据 今天 以下文章来源于Ray的数据分析自习室 ,作者Ray Ray的数据分析自习室 Ray的数据分析自习室 数据干货 | 商业评论 | 职业发展 1 数据分析概述 数据分析是基于某种业务目的,有目的的处理数据,提取有价值的信息,解决各种业务问题的过程。 目的/出发点:设立目标或业务需求,明确问题 方法:根据不同场景选定分析方法 结果:目标解释或业务应用(to do),创造价值 1.1 数据分析流程 目的和内容:明确项目整体框架或业务问题 数据收集:根据假设或问题树收集相应数据,要求数据准确、有效;SQL、业务调整信息 数据预处理:检验-清理,可比(例如标准化、得分转换等),论证 数据分析:方法、工具的选取 数据表达:图表 数据报告:结论、建议&解决方案 1.2 数据分析方法 预处理加工:描述性统计分析(数据分布、数据趋势)、相关分析(正负相关、拟合、相关系数) 基于数理统计:方差分析、回归分析、因子分析 数据挖掘:聚类(层次分析、K均值、模糊聚类、高斯回归)、分类(决策树、神经网络、贝叶斯分类、SVM、随机森林)、回归分析(线性回归、logistic回归) 1.3 数据分析工具 Excel-SQL、R、Python、BI、HADOOP、Spark… 2 数据趋势 2.1 计量尺度

sklearn.metrics计算回归模型的四大评价指标

大憨熊 提交于 2019-12-02 06:13:29
'' ' 模型效果指标评估 y_true:真实的数据值 y_pred:回归模型预测的数据值 explained_variance_score:解释回归模型的方差得分,其值取值范围是 [ 0 , 1 ] ,越接近于 1 说明自变量越能解释因变量 的方差变化,值越小则说明效果越差。 mean_absolute_error:平均绝对误差(Mean Absolute Error,MAE),用于评估预测结果和真实数据集的接近程度的程度 ,其其值越小说明拟合效果越好。 mean_squared_error:均方差(Mean squared error,MSE),该指标计算的是拟合数据和原始数据对应样本点的误差的 平方和的均值,其值越小说明拟合效果越好。 r2_score:判定系数,其含义是也是解释回归模型的方差得分,其值取值范围是 [ 0 , 1 ] ,越接近于 1 说明自变量越能解释因 变量的方差变化,值越小则说明效果越差。 explained_variance_score 解释方差的得分 Parameters : y_true : array - like of shape = ( n_samples ) or ( n_samples , n_outputs ) Ground truth ( correct ) target values . y_pred : array - like

Batch Normalization

可紊 提交于 2019-12-01 23:30:59
转自 https://blog.csdn.net/qq_42823043/article/details/89765194 简介 Batch Normalization简称BN,是2015年提出的一种方法《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好。 原论文地址:https://arxiv.org/abs/1502.03167 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而BN就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。 为什么深度神经网络随着网络深度加深,训练起来越困难,收敛越来越慢?这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的,比如ReLU激活函数,再比如ResNet等,BN本质上也是解释并从某个不同的角度来解决这个问题的。 一、Internal Covariate Shift 现象: 从论文名字可以看出,BN是用来解决“Internal Covariate Shift”问题的

08_特征预处理之标准化

社会主义新天地 提交于 2019-12-01 23:08:31
1.标准化特点:通过对原始数据进行变换把数据变换到均值为0,方差为1范围内。 对数据进行缩放首先想到标准化!!! 2.公式:  注:公式作用于每一列,mean为平均值,σ为标准差         其中:方差考量数据的稳定性 3.结合归一化来理解标准化 4.用法:  sklearn特征化API: scikit-learn.preprocessing.StandardScaler    StandardScaler(…) 处理之后每列来说所有数据都聚集在均值0附近方差为1  StandardScaler.fit_transform(X,y) X:numpy array格式的数据[n_samples,n_features] 返回值:转换后的形状相同的array  StandardScaler.mean_ 原始数据中每列特征的平均值(现在这个方法改为了.with_mean , 但是我打印这个结果为true)  StandardScaler.std_ 原始数据每列特征的方差 (现在这个方法改为了.with_std) 5.标准化步骤:1、实例化StandardScaler           2、通过fit_transform转换 6.案例:对[[ 1., -1., 3.], [ 2., 4., 2.], [ 4., 6., -1.]]进行标准化    from sklearn

统计学基础知识

僤鯓⒐⒋嵵緔 提交于 2019-12-01 17:06:17
为理解下面的知识需要先区分好下面几个概念: 总体均值: \(u\) 总体标准差: \(σ\) 样本均值: \(u'\) 样本标准差: \(σ'\) 样本中符合条件A的占比: \(p'\) 是样本大小: \(n\) 总体大小: \(N\) 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。 抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。 抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。 互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。 毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。 至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。 点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知,

PCA:主成分分析

和自甴很熟 提交于 2019-12-01 07:52:24
PCA的概念: 主要思想是将n维特征映射到k维上,这k维是全新的正交特征,这k维特征被称为主成分,在原数据的基础上重新构造出来k维。就是从原始的空间顺序的找出一组相互正交的坐标轴,新坐标轴的选择和数据本身有很大的关系。其中,第一个坐标轴是从原数据中方差最大的方向,第二个新坐标轴选择是与第一个坐标轴正交平面中使得方差最大的,第三个轴是与第一二轴正交的平面中方差最大的,依次类推。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。 PCA算法: 优点:降低数据的复杂性,识别最重要的多个特征 缺点:不一定需要, 可能损失有用信息 适用数据类型:数值型数据 数据集下载链接: http://archive.ics.uci.edu/ml/machine-learning-databases/ 在PCA中应用的数据集: http://archive.ics.uci.edu/ml/machine-learning-databases/ secom/ (1)打开数据集计算特征数目:(列为特征数)在secom数据集中一行代表一条数据

浅析卡尔曼滤波算法

泪湿孤枕 提交于 2019-11-30 22:56:29
一个算法并不是能适用于任何场景,在使用线性卡尔曼滤波器前,它有两个假设限定了它的应用场景,即: 系统是线性的 系统和测量噪声是高斯白噪声 什么是高斯白噪声?即噪声满足正态分布,表述如下: 高斯白噪声在时间尺度上是互不相关的,即上一时刻的噪声状态并不能决定下一时刻的噪声状态; 噪声在所有频率上具有相等的功率,即功率谱密度服从均匀分布; 4. 分析过程 4.1 基本方程 先直接扔出卡尔曼滤波的经典5个方程(来自于参考文献): 预测(估计)状态方程 更新方程 以上5个方程以矩阵运算形式代表了线性卡尔曼滤波算法的一般形式(不同文献的数学表达方式略有不同)。第一眼看到这几个方程里面的F、K、H之类的变量以及符号肯定是蒙圈的,即使了解了符号代表的意义,在实际过程中怎么使用可能也不是很清楚。 ### 4.2 方程的解释 【注:此节不会完整的再验算一次推导过程,因为篇幅有限,我只能根据我的理解,解释捋清推导过程的一个基本脉络,并解释参考文献中稍微有点绕的地方】 上述算法的一般方程来自于参考文献3,文中以获取机器人的位置和速度这两个变量为例,推导出了(二维)矩阵形式的一般方程,所以结合案例,总结一下方程中各变量符合所代表的意义。 #### 4.2.1 预测(估计)状态方程 【注:以下表述中“预测”和“估计”表示一个意思】 预测状态方程是依据被测对象的数据模型建立的,如例子中所示

小小知识点(四十)统计学中的矩

南笙酒味 提交于 2019-11-30 19:09:57
转自豆瓣: https://www.douban.com/note/686004725/ 在概率论、统计学甚至计量经济学中常会看到“矩”这个字,那什么是“矩”? 物理意义: 数学中矩的概念来自物理学。 在物理学中,矩是表示距离和物理量乘积的物理量,表征物体的空间分布。 由其定义,矩通常需要一个参考点(基点或参考系)来定义距离。如力和参考点距离乘积得到的力矩(或扭矩),原则上任何物理量和距离相乘都会产生力矩,质量,电荷分布等。 常见的概念——力矩,虽然我们高中没学。 数学意义: 矩是物体形状识别的重要参数指标。 在统计学中,矩表征随机量的分布 。 一阶矩,期望,表位置;二阶矩,方差,表胖瘦;三阶矩,偏度,表歪斜;四阶矩,峰度,表尾巴胖瘦 。 转自知乎: https://www.zhihu.com/question/23236070/answer/143316942 “因为我们常常会将随机变量(先假定有任意阶矩)作一个线性变换,把一阶矩(期望)归零,二阶矩(方差)归一,以便统一研究一些问题。这时候,在同样期望为0方差为1的标准情况下(以下均假设随机变量满足该条件),随机变量最重要的指标就变成了接下来的两个矩了。 三阶矩 ,就是我们所称的「偏度」。粗略来说,一个典型的 正偏度变量X 的分布满足这样的特征:很大的概率X会取绝对值较小的负值,但在极少数情况下,X会取特别大的正值。可以理解为

算法(2)——卡尔曼滤波:1.线性卡尔曼滤波

戏子无情 提交于 2019-11-30 12:03:59
%% ========== Kalman滤波用在一维温度数据测量系统中 ========== %% function Linear_Kalman %% ========== 初始数据 ========== %% N = 120; % 采样点的个数 CON = 25; % 室内温度的理论值 %% ========== 对状态和测量初始化 ========== %% Xexpect = CON * ones(1,N); % 设置期望的温度 X = zeros(1,N); % 房间各时刻真实温度值 Xkf = zeros(1,N); % Kalman滤波处理的状态,也叫估计值 Z = zeros(1,N); % 温度测量值 P = zeros(1,N); % 预设协方差空间 %% ========== 赋初值 ========== %% X(1) = 25.1; % 假设房间温度初始值为25.1摄氏度 P(1) = 0.01; % 初始值的协方差 Z(1) = 24.9; % 房间初始测量值 Xkf(1) = Z(1); % 将初始测量值作为滤波器的初始估计状态 %% ========== 噪声 ========== %% Q = 0.01; % 输入白噪声的方差阵 R = 0.25; % 观测白噪声的方差阵 W = sqrt(Q) * randn(1,N); %

两个总体的参数关系

一个人想着一个人 提交于 2019-11-30 05:56:22
区间估计 有偏或无偏是可以估计出来的,直接用公式计算得到。 Eg :样本均值的均值是总体均值的无偏估计。总体离均差的均值是总体方差,但是样本离均差的均值不是总体方差的无偏估计,而样本方差是总体方差的无偏估计,所以采用样本方差计算总体方差。 当知道方差时,估计出的均值区间小,当不知道方差时,估计出的均值区间大。因为多知道一个参数则区间估计更准确。 对方差估计时,得到的抽样分布并不对称,选择面积相等的两块并没有的得到估计区间最小,但这样计算方便。 比较两个总体的各自参数的关系,就是估计它们之间关系的参数究竟几何。比较均值时比较大小就是考查差是否为零,比较方差时比较大小是考查商是否为 1 ,所以问题就成了估计该值是否为某一个数。这就变成了参数估计的内容。 来源: https://www.cnblogs.com/yuanjingnan/p/11565631.html