1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。
1) 大数定律
-
弱大数定律(通常指辛钦大数定律):
a) 马尔科夫大数定律:
随机变量满足马尔科夫条件:,则样本均值依概率收敛于期望值。
b) 辛钦大数定律:
随机变量独立同分布,一阶矩存在且等于 ,样本均值依概率收敛
于期望值 。 -
强大数定律(柯尔莫哥洛夫):
随机变量独立同分布,一阶矩存在且等于 ,样本均值以概率1收敛
于期望值 。
2) 中心极限定理
- Lindeberg-Levy 中心极限定理(最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布):
随机变量 独立同分布, 且具有有限的数学期望和方差 , ,记
则
其中 是标准正态分布的分布函数。
3) 大数定律的应用
抛硬币,抛的次数足够多,正反面出现的概率近乎是一致的。
4) 中心极限定理应用
在统计推断中,常需要知道统计量的分布,例如假设检验。这时可以借助大样本理论,在样本量很大时,求出统计量的渐进分布。
2. 说出两种不同的参数估计方法,并详细介绍其中一种估计方法,对某未知参数,如何比较两个不同估计量的优劣。
极大似然估计,最小二乘估计(最小均方误差),矩估计(用样本 k 阶矩代替总体的 k 阶矩)。
矩估计法(也称数字特征法):
- 直观意义比较明显,但要求总体 k 阶矩存在。
- 缺点是不唯一,此时尽量使用样本低阶矩。
- 观测值受异常值影响较大,不够稳健,实际中避免使用样本高阶矩。
- 估计值可能不落在参数空间
极大似然估计法:
- 具有一些理论上的优点(不变性、相合性、渐近正态性)
- 缺点是如果似然函数不可微,没有一般的求解法则。
3. 详细介绍一种非参数统计的方法,并叙述非参数统计的优缺点
非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。
机器学习:决策树,随机森林,SVM;
假设检验:符号,符号秩,秩和检验
优点:
- 非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
- 多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。
缺点:
- 由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
- 对于大样本,如不采用适当的近似,计算可能变得十分复杂。
4. 常见的数据降维方法有哪些?详细介绍主成分分析的基本原理与作用。
逐步回归,SIS,LASSO,PCA,ICA,随机森林等一些机器学习方法变量重要性筛选
- 基本原理: 投影
- 作用: 降维
可参考:一些变量筛选方法——1、综述
5. ① 依概率收敛、② 概率1收敛(几乎处处收敛)的定义分别是什么?二者有什么关系?
依概率收敛( 表示距离,通常可用):
概率1收敛:
接着考虑 ③ 依分布收敛,④ r阶矩收敛,有下述关系:
④ -> ①
② -> ①
① -> ③
③ -> ① (当①③ -> 常数C)
6. 阐述极大似然估计法的基本思想、缺陷及解决方案。
-
基本思想: 出现的认为是最有可能发生的。
-
具体定义:
给定一个概率分布 ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 ,以及一个分布参数 ,我们可以从这个分布中抽出一个具有 个值的采样 ,利用 计算出其似然函数:
若 是离散分布, 即是在参数为 时观测到这一采样的概率。若其是连续分布, 则为 联合分布的概率密度函数在观测值处的取值。一旦我们获得 ,我们就能求得一个关于 的估计。最大似然估计会寻找关于 的最可能的值(即,在所有可能的 取值中,寻找一个值使这个采样的 “可能性” 最大化)。从数学上来说,我们可以在 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 值即称为 的最大似然估计。由定义,最大似然估计是样本的函数。
-
缺陷及解决方案:
- 均匀分布参数,正态分布的尺度参数的极大似然估计是有偏的,可以乘以一个系数进行校正。
- 极大似然估计的方差在高维情况下会很大,贝叶斯方法通过加先验一定程度上克服了这个问题,形式上就是现在的各种正则化方法,使得估计结果更稳定,更有效。
7. 参数点估计量的评价标准有哪些?
相合性,无偏性(参数估计的期望等于参数),有效性(两个估计均为无偏估计,则方差越小越有效),完备性,渐进正态性……
-
相合性(通常指弱):
弱:,依概率
强:,几乎处处 -
完备性:
是可测函数,则分布族是完备的。
8. 谈谈你对假设检验中,显著性水平,第一类错误,第二类错误,p值,真实水平的理解。
- 假设检验:是根据样本来推断总体的一些给定陈述是否成立的过程
- 第一类错误(type I error):拒绝了正确零假设
- 第二类错误(type II error):接受了不正确零假设
- 显著性水平(level of significance) : 拒绝了正确零假设的最大概率(事先给定)
- 检验功效(power) : 拒绝了不正确零假设概率
- 检验的p-值:根据样本,在原假设成立的前提下,出现与样本相同或者更极端的情况的概率
9. 什么是统计学?人工智能?机器学习?深度学习?
1) 统计学
- 是利用数据解释自然规律的科学,内容包括如何收集和分析数据。
- 是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。
2) 人工智能
- 指由人制造出来的机器所表现出来的智能。
3) 机器学习
- 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
- 机器学习是对能通过经验自动改进的计算机算法的研究。
- 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
- 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
4) 深度学习
- 深度学习(DL)是一类机器学习算法,使用多个层逐步从原始数据中提取更高层的特征。——wiki
- 深度学习就是构建由参数化功能模块构成的网络,并利用基于梯度的优化方法进行样本训练。——Yann LeCun
其他相关知识点
-
概率的三个公理化条件
非负性,规范性,可列可加性 -
回归分析中的F test 与 t test
OLS 线性回归的假设检验:t 检验和 F 检验 -
样本点:试验可能出现的结果
-
样本空间:样本点全体
-
概率:对于随机事件A,用一个数P(A)表示该事件发生的可能性大小,则此数称为随机事件A的概率。
-
随机变量:给定样本空间 ,如果其上的实值函数 是 (实值)可测函数,则称 为(实值)随机变量。初等概率论中通常不涉及到可测性的概念,而直接把任何 的函数称为随机变量。
-
概率空间:(样本空间,事件域,概率)
-
统计量:是样本测量的一种属性(例如,计算样本算术平均值),它计算的通过对数据集进行某种函数(统计算法)的运算后得到的值。
-
充分统计量:对于统计量 ,若数据 在已知 时的条件分布不依赖于参数 ,则称其是关于参数 的充分统计量。
-
数学期望:
- 离散:设 为一离散型随机变量,它取值 对应的概率为 如果级数 绝对收敛,则称之为 的数学期望
- 连续:设 为具有密度函数 的连续型随机变量,当积分 绝对收敛时,称之为 的数学期望。
-
方差:若 存在,则称随机变量 的方差
-
U统计量:所有对称核(无偏估计+样本的对称函数)的平均。
-
UMVUE(一致最小方差无偏估计):
设 是可估参数,若 是 的无偏估计,且对 (所有无偏估计组成的类)中任一估计 ,有: -
AIC,BIC(越小越好):
训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。 -
损失函数:
Hinge 损失(SVM),指数损失函数(Adaboost),平方损失函数(最小二乘法, Ordinary Least Squares ),对数损失函数(逻辑回归,交叉熵损失)
来源:CSDN
作者:Kanny广小隶
链接:https://blog.csdn.net/weixin_41929524/article/details/103748682