概率密度

数据分析数据挖掘(一)

别说谁变了你拦得住时间么 提交于 2020-03-01 15:49:30
相信小伙伴已经会基本的数据处理了和可视化的问题了。我们现在要进行数据挖掘的学习了。 一、数据的类型: 模型:变量与变量之间的关系。 数据分析:根据变量类型和以顶的假设,来确定变量与变量之间的关系。 所有的模型都是错的,但有些是有用的。 二、数据分析和数据挖掘的关系: 1.数据的用途:记录、解释(理解)、预测、控制 2.数据分析:统计、相关、回归;已知模型下的参数估计 3.数据挖掘:发现知识;分类、聚类、回归 4.数据-信息-知识 三、概率 相信盼盼都会一些基础了,不会的话我可以再补充些更基础了。 1.条件概率:P(A|B)=P(AB)/P(B),从而可以知道若P(A)和P(B)都大于0则P(AB)=P(B)P(A|B)=P(A)P(B|A)。 2.全概率公式:设A1,A2…An是一个独立同分布的事件组,并且全部概率大于0,则对于B有,P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)…+P(An)P(B|An),这个为全概率公式。 3.贝叶斯公式:设A1,A2…An是一个独立同分布的事件组,并且全部概率大于0,则对于B有,P(Am|B)=P(AmB)/P(B)=(P(Am)P(B|Am))/(P(A1)P(B|A1)+P(A2)P(B|A2)…+P(Ai)P(B|Ai)) 注意i是导致事件B发生的因素。 例子:一个学校的男女(C1,C2)比例是1:1

概率论与数理统计图式(第三章 多维随机变量)

瘦欲@ 提交于 2019-12-01 04:24:46
概率论与数理统计图式(第三章 多维随机变量) 1、二位随机变量及其分布 1)二维随机变量定义 设随机试验E 的样本空间为Ω,对于每一样本点ω∈Ω ,有两个实数 X (Ω), Y (Ω) 与之对应,称它们构成的有序数组 ( X , Y ) 为 二维随机变量。 注:对二维随机变量( X, Y )来说, X,Y 都是定义在Ω上的一维随机变量. 2)联合分布函数 (1)联合分布函数几何意义 平面随机点( X, Y ) 落入以(x, y)为顶点的左下方区域的概率。 (2)联合分布函数的性质 单调不减性 非负有界性 右连续性 相容性    3)边缘分布函数 (1)定义:称X、Y各自 的分布函数 FX(x) 与 FY(y) 为( X, Y ) 的边缘分布函数。 (2)由联合分布函数可确定边缘分布函数: 2、联合分布律 用边缘分布律不一定能确定联合分布律! 原因:多维随机变量的联合分布不仅与每个变量的边缘分布有关,而且还与每个变量之间的联系有关!两个随机变量X,Y不等同于二维随机变量(X,Y)! 3、联合概率密度 (1)联合概率密度的物理解释:概率在(x, y)处的面密度. (2)联合概率密度曲面 (3)f(x)满足 对边缘概率密度的求解,实质上是求带参变量的积分。 难点: 积分上下限的确定! 可通过图形来帮助解决这个问题。 来源: https://www.cnblogs.com

概率论与数理统计总结

耗尽温柔 提交于 2019-11-27 18:53:15
前置知识: \(1.\) 高中数学相关知识。 \(2.\) 高等数学(微分,定积分,不定积分,泰勒展开,极限等) 定积分常用计算方式:牛顿—莱布尼兹公式:( \(F()\) 为 \(f()\) 的原函数,即 \(F^{'}()=f()\) ) \[ \int_a^b{f(x)dx}=F(b)-F(a) \] 泰勒中值定理 \(1\) : \(f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)\) ,满足 \(f(x)\) 在 \(x_0\) 处有 \(n\) 阶导数, \(x\) 为 \(x_0\) 的一个邻域中的任意值, \(R_n(x)=o((x-x_0))^n\) 称为佩亚诺余项。 泰勒中值定理 \(2\) : \(f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)\) ,满足 \(f(x)\) 在 \(x_0\) 的某一邻域中有 \(n+1\) 阶导数, \(x\) 为 \(x_0\) 该邻域中的任意值, \(R_n(x)=\frac{f^{n+1}(\xi)}{(n+1)!}(x